گوگل جمینای ۳.۱ فلش لایو را برای گفتگوی صوتی طبیعی‌تر راه‌اندازی کرد

گوگل (Google) مدل جمینای ۳.۱ فلش لایو (Gemini 3.1 Flash Live) را عرضه کرد. این مدل، پیشرفته‌ترین سیستم صوتی و مکالمه‌ای گوگل تا به امروز است. گفتگوهای بلادرنگ با دقت بیشتر و تأخیر کمتر ارائه می‌دهد.

این مدل در چندین پلتفرم در دسترس است. توسعه‌دهندگان می‌توانند از طریق جمینای لایو API (Gemini Live API) در گوگل AI استودیو (Google AI Studio) به آن دسترسی داشته باشند. شرکت‌ها می‌توانند از جمینای اینترپرایز (Gemini Enterprise) برای تجربه مشتری استفاده کنند. کاربران عادی از طریق Search Live و جمینای لایو (Gemini Live) تجربه آن را خواهند داشت. Gemini Live اکنون از بیش از ۲۰۰ کشور و قلمرو به زبان‌های متعدد پشتیبانی می‌کند.

عملکرد این مدل در معیارهای صنعتی چشمگیر است. در ComplexFuncBench (معیار سنجش فراخوانی تابع چندمرحله‌ای)، امتیاز ۹۰.۸٪ کسب کرد. در Scale AI's Audio MultiChallenge (آزمون پیچیده صدای مقیاس AI)، که دستورالعمل‌های پیچیده و استدلال افق‌بلند را در میان وقفه‌های صوتی دنیای واقعی آزمایش می‌کند، با فعال‌سازی «تفکر»، به امتیاز ۳۶.۱٪ رسید.

یکی از بهبودهای کلیدی، درک لحن پیشرفته است. مدل می‌تواند ظرافت‌های صوتی مانند گام و سرعت را بهتر تشخیص دهد. پاسخ‌ها را به صورت پویا با حالاتی مانند ناامیدی یا سردرگمی کاربر تطبیق می‌دهد. جمینای لایو اکنون رشته‌های مکالمه‌ای را تا دو برابر مدل قبلی پشتیبانی می‌کند. انسجام خط فکری در جلسات طوفان فکری طولانی حفظ می‌شود.

پذیرندگان اولیه از جمله ورایزن (Verizon)، لایوکیت (LiveKit) و د هوم دیپو (The Home Depot) بازخورد مثبتی درباره قابلیت‌های مکالمه طبیعی بهبودیافته ارائه کرده‌اند. گوگل همچنین نشان‌گذاری ساینتیدا (SynthID) را روی تمام صداهای تولیدشده توسط ۳.۱ فلش لایو پیاده‌سازی کرده است. این فناوری تشخیص قابل اطمینان محتوای تولیدشده توسط هوش مصنوعی را ممکن می‌سازد و به جلوگیری از اطلاعات نادرست کمک می‌کند.

این عرضه پس از افزودن لایه‌های فلکس (Flex) و پریوریتی (Priority) به API جمینای صورت می‌گیرد. این افزوده‌ها گزینه‌های بیشتری برای متعادل‌سازی هزینه و قابلیت اطمینان در اختیار توسعه‌دهندگان قرار می‌دهد. گسترش به بیش از ۲۰۰ کشور تعهد گوگل به دسترسی جهانی صوتی هوش مصنوعی را نشان می‌دهد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گوگل جمینای ۳.۱ فلش لایو را برای گفتگوی صوتی طبیعی‌تر راه‌اندازی کرد

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گوگل جمینای ۳.۱ فلش لایو را برای گفتگوی صوتی طبیعی‌تر راه‌اندازی کرد

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گوگل جمینای ۳.۱ فلش لایو را برای گفتگوی صوتی طبیعی‌تر راه‌اندازی کرد

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گوگل جمینای ۳.۱ فلش لایو را برای گفتگوی صوتی طبیعی‌تر راه‌اندازی کرد

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

راهنمای فارسی هوش مصنوعی — با نگاه به ایران