چرا باید برای خدمات تبدیل متن به گفتار هزینههای گزاف بپردازید، در حالی که یک مدل کوچک میتواند با هزینهای ناچیز همان کیفیت را ارائه دهد؟ تصور کنید دسترسی به صداهای طبیعی و باکیفیت دیگر نیازی به بودجههای میلیونی نداشته باشد.
Kokoro، یک مدل وزنهای باز (Open Weights) برای تبدیل متن به گفتار (TTS) است که توسط توسعهدهندهای به نام hexgrad در پلتفرم Hugging Face منتشر شده است. این مدل صنعت را مجبور کرده تا در مورد هزینهی واقعی تولید صدای مصنوعی بازنگری کند.

طبق دادههای قیمتگذاری ArtificialAnalysis و Replicate، ارائهدهندگان API در آوریل ۲۰۲۵ این مدل را با قیمتی کمتر از ۱ دلار برای هر میلیون نویسه ارائه میدهند؛ یعنی تقریباً ۰.۰۶ دلار برای هر ساعت صدای تولید شده. به دلیل لایسنس Apache 2.0، شرکتها و علاقهمندان میتوانند بدون محدودیتهای تجاری یا وابستگی به یک فروشنده خاص، این مدل را بهصورت شخصی میزبانی کنند.
در لایههای فنی، Kokoro بر پایه StyleTTS 2 و ISTFTNet ساخته شده است. این مدل از معماری «فقط رمزگشا» (Decoder-only) استفاده میکند و بهطور کامل ماژولهای انتشار (Diffusion) و رمزگذار (Encoder) را حذف کرده است. همین طراحی سبک باعث میشود استنتاج (Inference) آن برای کاربردهای آنی (Real-time) روی سختافزارهای معمولی بسیار سریع باشد.
همانطور که در تحلیل قبلی ما دربارهی مدل زبانی کوچک (Small Language Model - SLM) اشاره کردیم، بهینهسازی پارامترها مسیر جدیدی را در صنعت باز کرده است. در مورد Kokoro، کل فرآیند آموزش تنها ۱,۰۰۰ ساعت از پردازندههای A100 80GB را مصرف کرده که هزینه نهایی آن حدود ۱,۰۰۰ دلار بوده است. به نقل از مستندات پروژه، این مدل منحصراً روی دادههای بدون کپیرایت، ضبطهای عمومی و صداهای مصنوعی تولید شده توسط سیستمهای تجاری آموزش دیده است.
نسخهی v1.0 که در ۲۷ ژانویه ۲۰۲۵ منتشر شد، پشتیبانی از ۸ زبان و ۵۴ صدا را فراهم کرد؛ در حالی که نسخهی دسامبر ۲۰۲۴ تنها یک زبان و ۱۰ صدا داشت. با وجود این حجم کم، ادعا میشود کیفیت آن با مدلهای بسیار بزرگتر برابری میکند.
اما هشدار مهمی وجود دارد: توسعهدهندگان مدل صراحتاً اعلام کردهاند که وبسایتهایی مانند kokorottsai_com و kokorotts_net کلاهبرداری هستند و هیچ ارتباطی با مخزن رسمی ندارند. هر دامنهای که صرفاً شامل کلمه "kokoro" باشد باید مشکوک تلقی شود.
این مدل فشار شدیدی بر ارائهدهندگان تجاری TTS وارد میکند که قیمتهای بسیار بالاتری میگیرند. برای توسعهدهندگان، پیام روشن است: سنتز صدای باکیفیت دیگر نیازی به بودجههای کلان ندارد.
اما این تنها بخشی از ماجراست؛ تأثیر این مدل بر آیندهی پادکستهای خودکار را در گزارش بعدی بررسی خواهیم کرد.
گام بعدی شما
- مدل Kokoro را از طریق Hugging Face تست کنید تا سرعت استنتاج آن را ببینید.
- برای استقرار شخصی، مستندات رسمی در GitHub را بررسی کنید.
- هرگز اطلاعات حساس خود را در دامنههای غیررسمی Kokoro وارد نکنید.




گفتگو