پایان سلطه‌ی غول‌های TTS: مدل Kokoro بازی را تغییر داد

چرا باید برای خدمات تبدیل متن به گفتار هزینه‌های گزاف بپردازید، در حالی که یک مدل کوچک می‌تواند با هزینه‌ای ناچیز همان کیفیت را ارائه دهد؟ تصور کنید دسترسی به صداهای طبیعی و باکیفیت دیگر نیازی به بودجه‌های میلیونی نداشته باشد.

Kokoro، یک مدل وزن‌های باز (Open Weights) برای تبدیل متن به گفتار (TTS) است که توسط توسعه‌دهنده‌ای به نام hexgrad در پلتفرم Hugging Face منتشر شده است. این مدل صنعت را مجبور کرده تا در مورد هزینه‌ی واقعی تولید صدای مصنوعی بازنگری کند.

The user wants a concise Persian (Farsi) translation for an image alt text in an article titled: "hexgrad/Kokoro-82M · Huggin

طبق داده‌های قیمت‌گذاری ArtificialAnalysis و Replicate، ارائه‌دهندگان API در آوریل ۲۰۲۵ این مدل را با قیمتی کمتر از ۱ دلار برای هر میلیون نویسه ارائه می‌دهند؛ یعنی تقریباً ۰.۰۶ دلار برای هر ساعت صدای تولید شده. به دلیل لایسنس Apache 2.0، شرکت‌ها و علاقه‌مندان می‌توانند بدون محدودیت‌های تجاری یا وابستگی به یک فروشنده خاص، این مدل را به‌صورت شخصی میزبانی کنند.

در لایه‌های فنی، Kokoro بر پایه StyleTTS 2 و ISTFTNet ساخته شده است. این مدل از معماری «فقط رمزگشا» (Decoder-only) استفاده می‌کند و به‌طور کامل ماژول‌های انتشار (Diffusion) و رمزگذار (Encoder) را حذف کرده است. همین طراحی سبک باعث می‌شود استنتاج (Inference) آن برای کاربردهای آنی (Real-time) روی سخت‌افزارهای معمولی بسیار سریع باشد.

همان‌طور که در تحلیل قبلی ما درباره‌ی مدل زبانی کوچک (Small Language Model - SLM) اشاره کردیم، بهینه‌سازی پارامترها مسیر جدیدی را در صنعت باز کرده است. در مورد Kokoro، کل فرآیند آموزش تنها ۱,۰۰۰ ساعت از پردازنده‌های A100 80GB را مصرف کرده که هزینه نهایی آن حدود ۱,۰۰۰ دلار بوده است. به نقل از مستندات پروژه، این مدل منحصراً روی داده‌های بدون کپی‌رایت، ضبط‌های عمومی و صداهای مصنوعی تولید شده توسط سیستم‌های تجاری آموزش دیده است.

نسخه‌ی v1.0 که در ۲۷ ژانویه ۲۰۲۵ منتشر شد، پشتیبانی از ۸ زبان و ۵۴ صدا را فراهم کرد؛ در حالی که نسخه‌ی دسامبر ۲۰۲۴ تنها یک زبان و ۱۰ صدا داشت. با وجود این حجم کم، ادعا می‌شود کیفیت آن با مدل‌های بسیار بزرگتر برابری می‌کند.

اما هشدار مهمی وجود دارد: توسعه‌دهندگان مدل صراحتاً اعلام کرده‌اند که وب‌سایت‌هایی مانند kokorottsai_com و kokorotts_net کلاهبرداری هستند و هیچ ارتباطی با مخزن رسمی ندارند. هر دامنه‌ای که صرفاً شامل کلمه "kokoro" باشد باید مشکوک تلقی شود.

این مدل فشار شدیدی بر ارائه‌دهندگان تجاری TTS وارد می‌کند که قیمت‌های بسیار بالاتری می‌گیرند. برای توسعه‌دهندگان، پیام روشن است: سنتز صدای باکیفیت دیگر نیازی به بودجه‌های کلان ندارد.

اما این تنها بخشی از ماجراست؛ تأثیر این مدل بر آینده‌ی پادکست‌های خودکار را در گزارش بعدی بررسی خواهیم کرد.

گام بعدی شما

مدل Kokoro را از طریق Hugging Face تست کنید تا سرعت استنتاج آن را ببینید.
برای استقرار شخصی، مستندات رسمی در GitHub را بررسی کنید.
هرگز اطلاعات حساس خود را در دامنه‌های غیررسمی Kokoro وارد نکنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

The user wants a concise Persian (Farsi) translation for an image alt text in an article titled: "hexgrad/Kokoro-82M · Huggin

اما این تنها بخشی از ماجراست؛ تأثیر این مدل بر آینده‌ی پادکست‌های خودکار را در گزارش بعدی بررسی خواهیم کرد.

گام بعدی شما

مدل Kokoro را از طریق Hugging Face تست کنید تا سرعت استنتاج آن را ببینید.
برای استقرار شخصی، مستندات رسمی در GitHub را بررسی کنید.
هرگز اطلاعات حساس خود را در دامنه‌های غیررسمی Kokoro وارد نکنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پایان سلطه‌ی غول‌های TTS: مدل Kokoro بازی را تغییر داد

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پایان سلطه‌ی غول‌های TTS: مدل Kokoro بازی را تغییر داد

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پایان سلطه‌ی غول‌های TTS: مدل Kokoro بازی را تغییر داد

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پایان سلطه‌ی غول‌های TTS: مدل Kokoro بازی را تغییر داد

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران