اگر هنوز منتظر هستید تا مدلهای صوتی «فکر کنند» و سپس پاسخ دهند، در واقع با یک فناوری منسوخ سر و کار دارید. تصور کنید دنیایی را که در آن تعامل با ماشین، دقیقاً به اندازه تعامل با انسان سریع و روان است.
به نقل از گزارش MarkTechPost، شرکت xAI از مدل grok-voice-think-fast-1.0 پردهبرداری کرد؛ یک عامل (Agent) صوتی دوطرفه (Full-duplex) که برای جریانهای کاری پیچیده سازمانی طراحی شده است. طبق اعلام این شرکت، این مدل هماکنون در مقیاس وسیع برای عملیات تلفنی استارلینک (Starlink) مستقر شده است و میتواند همزمان با پردازش گفتار ورودی، پاسخ را تولید کند تا امکان قطع کلام و اصلاحات آنی فراهم شود.

شکاف عملکردی این مدل با رقبا بسیار چشمگیر است. در بنچمارک $\tau$-voice Bench، مدل Grok با کسب امتیاز ۶۷.۳٪، رقبای خود یعنی Gemini 3.1 Flash Live (۴۳.۸٪) و GPT Realtime 1.5 (۳۵.۳٪) را با اختلاف زیادی پشت سر گذاشت. این برتری در بخش مخابرات (Telecom) به اوج میرسد، جایی که Grok به امتیاز ۷۳.۷٪ دست یافت، در حالی که نزدیکترین رقبایش تنها حدود ۲۱٪ امتیاز کسب کردند.
دستاوردهای فنی این مدل عبارتند از:
- استدلال در پسزمینه (Background Reasoning): مدل محاسبات پیچیده را در لایههای زیرین انجام میدهد تا توکنهای استدلالی (Reasoning Tokens) باعث افزایش تأخیر در پاسخگویی نشوند.
- ضبط دادههای ساختاریافته (Structured Data Capture): مدیریت بومی لکنتها و اصلاحات میانجملهای برای مواردی مثل آدرسها و شماره حسابها.
- پشتیبانی چندزبانه: قابلیتهای بومی در بیش از ۲۵ زبان.
همانطور که در تحلیل قبلی ما دربارهی ادغام Gemini AI در میلیونها خودروی متصل اشاره کردیم، xAI اکنون استراتژی خود را به سمت محیطهای حساستر یعنی سیستمهای تلفنی سوق داده است. بر اساس مستندات xAI، یک عامل در استارلینک ۲۸ ابزار مجزا را مدیریت کرده و به نرخ تبدیل فروش ۲۰ درصدی دست یافته است.

با حل ۷۰٪ درخواستهای پشتیبانی بدون دخالت انسان، xAI ثابت کرد که استدلال دوطرفه از یک کنجکاوی پژوهشی به یک دارایی تجاری تبدیل شده است. اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.
گام بعدی شما
- بررسی بنچمارک $\tau$-voice برای درک استانداردهای جدید تأخیر صوتی.
- آزمایش مدلهای صوتی در سناریوهای «قطع کلام» (Interruption) برای سنجش کیفیت Full-duplex.
- تحلیل اثر حذف تأخیر استدلال بر نرخ تبدیل (Conversion Rate) در فروشهای تلفنی.




گفتگو