اگر به صدایی نیاز دارید که در یک کتابخانهی قدیمی نجوا کند یا در یک استودیوی پرهرجومرج فریاد بزند، Gemini 3.1 Flash TTS Preview این امکان را فراهم میکند. این مدل دیگر کاربر را به صداهای یکنواخت و خستهکننده محدود نمیکند و اجازه میدهد دستورالعملهای صوتی دقیق را مستقیماً در پرامپت بگنجانید.
صنعت از تمرکز بر سرعت پاسخدهی به سمت ظرافتهای احساسی حرکت میکند. همانطور که در تحلیل قبلی ما دربارهی استریمینگ رابط کاربری با Gemini 2.0 Flash اشاره کردیم، هدف حالا تولید صدایی است که لایههای انسانی داشته باشد. این ابزار در واقع یک سیستم تبدیل متن به گفتار (TTS) است؛ شبیه بازیگری که متن را میخواند، اما حالا میتواند دستورالعملهای کارگردان را هم در لحظه اجرا کند.
به نقل از مستندات فنی منتشرشده در ۷ ژوئن ۲۰۲۶، این سیستم بر بستر Vertex AI اجرا میشود. در این معماری، Firebase Cloud Functions پرامپتهای متنی را پردازش کرده و تگهایی مثل [panicked] (وحسزده) یا [slow] (آرام) را به یک فرانتند Angular 21 میفرستد.

جزئیات فنی این پشتهی تکنولوژی شامل موارد زیر است:
- Gemini 3.1 Flash TTS: مدل اصلی با پنجره متنی (Context Window) — شبیه میز کاری که جا برای چند ورق دارد، نه کل کتابخانه — به اندازه ۳۲ هزار توکن.
- Firebase Local Emulator Suite: برای توسعهی کمهزینه در محیط محلی.
- پیادهسازی WAV Buffer: چون مدل بهطور بومی از استریمینگ پشتیبانی نمیکند، برای ارسال دادههای صوتی به کلاینت از سیستم بافری تکهتکه استفاده شده است.

بر اساس بررسیهای عملی، توسعهدهندگان با چالشی به نام «تلهی مرز توکن» روبرو هستند. اگر تگ احساسی را بدون فاصله به متن بچسبانید (مثلاً [slow]Text)، مدل تگ را نادیده میگیرد. راه حل ساده است: یک فاصله بزنید ([slow] Text). همچنین استفاده از تکرار، مثل [very, very, very slow]، اثر دراماتیک سرعت بیان را بیشتر میکند.
این تغییر یعنی شما میتوانید بدون نیاز به کتابخانههای حجیم از نمونههای صوتی ضبطشده، یک شخصیت کاملاً باورپذیر بسازید. شما فقط با تغییر چند رشته متنی در یک فرم، یک شخصیت منحصربهفرد خلق میکنید.
گام بعدی شما
- مخزن گیتهاب پروژه را کلون کنید و تگهای مختلف را برای توصیف صحنهها امتحان کنید.
- لیست زبانهای رسمی Google AI Studio را چک کنید، زیرا این مدل هنوز از گویشهای منطقهای مثل کانتونزی پشتیبانی نمیکند.
- برای بهینهسازی هزینه، از محیط Local Emulator برای تست تگهای صوتی استفاده کنید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.

گفتگو