گوگل (Google) مدل جمینای ۳.۱ فلش لایو (Gemini 3.1 Flash Live) را عرضه کرد. این مدل، پیشرفتهترین سیستم صوتی و مکالمهای گوگل تا به امروز است. گفتگوهای بلادرنگ با دقت بیشتر و تأخیر کمتر ارائه میدهد.
این مدل در چندین پلتفرم در دسترس است. توسعهدهندگان میتوانند از طریق جمینای لایو API (Gemini Live API) در گوگل AI استودیو (Google AI Studio) به آن دسترسی داشته باشند. شرکتها میتوانند از جمینای اینترپرایز (Gemini Enterprise) برای تجربه مشتری استفاده کنند. کاربران عادی از طریق Search Live و جمینای لایو (Gemini Live) تجربه آن را خواهند داشت. Gemini Live اکنون از بیش از ۲۰۰ کشور و قلمرو به زبانهای متعدد پشتیبانی میکند.
{{img:0}}
عملکرد این مدل در معیارهای صنعتی چشمگیر است. در ComplexFuncBench (معیار سنجش فراخوانی تابع چندمرحلهای)، امتیاز ۹۰.۸٪ کسب کرد. در Scale AI's Audio MultiChallenge (آزمون پیچیده صدای مقیاس AI)، که دستورالعملهای پیچیده و استدلال افقبلند را در میان وقفههای صوتی دنیای واقعی آزمایش میکند، با فعالسازی «تفکر»، به امتیاز ۳۶.۱٪ رسید.
یکی از بهبودهای کلیدی، درک لحن پیشرفته است. مدل میتواند ظرافتهای صوتی مانند گام و سرعت را بهتر تشخیص دهد. پاسخها را به صورت پویا با حالاتی مانند ناامیدی یا سردرگمی کاربر تطبیق میدهد. جمینای لایو اکنون رشتههای مکالمهای را تا دو برابر مدل قبلی پشتیبانی میکند. انسجام خط فکری در جلسات طوفان فکری طولانی حفظ میشود.
پذیرندگان اولیه از جمله ورایزن (Verizon)، لایوکیت (LiveKit) و د هوم دیپو (The Home Depot) بازخورد مثبتی درباره قابلیتهای مکالمه طبیعی بهبودیافته ارائه کردهاند. گوگل همچنین نشانگذاری ساینتیدا (SynthID) را روی تمام صداهای تولیدشده توسط ۳.۱ فلش لایو پیادهسازی کرده است. این فناوری تشخیص قابل اطمینان محتوای تولیدشده توسط هوش مصنوعی را ممکن میسازد و به جلوگیری از اطلاعات نادرست کمک میکند.
این عرضه پس از افزودن لایههای فلکس (Flex) و پریوریتی (Priority) به API جمینای صورت میگیرد. این افزودهها گزینههای بیشتری برای متعادلسازی هزینه و قابلیت اطمینان در اختیار توسعهدهندگان قرار میدهد. گسترش به بیش از ۲۰۰ کشور تعهد گوگل به دسترسی جهانی صوتی هوش مصنوعی را نشان میدهد.

گفتگو