اگر هنوز برای ساخت عاملهای صوتی جهانی از خطلولههای تکهتکه استفاده میکنید، در واقع دارید ساعتهای حیاتی مهندسی خود را دور میریزید. تصور کنید تمام پیچیدگیهای مدیریت ۱۰ زبان مختلف، در یک مدل واحد جمع شود.
دیپگرام (Deepgram) قصد دارد با تغییر پارادایم صنعت از شناسایی خودکار گفتار (Automatic Speech Recognition - ASR) به سمت شناسایی گفتار محاورهای (Conversational Speech Recognition - CSR)، این پیچیدگیها را به پایان برساند.
به گزارش unite.ai، این شرکت سیستم Flux Multilingual را معرفی کرده است؛ مدل واحدی که قادر است ۱۰ زبان مختلف را بهصورت لحظهای درک کند. اگرچه تاریخ دقیق عرضه عمومی اعلام نشده، اما هدف این فناوری استقرار در محیطهای حساس مانند بهداشت و درمان و امور مالی است.
ساختار Flux یک چرخش بنیادین در نحوه پردازش صوت توسط هوش مصنوعی زاینده (Generative AI) است:
- آگاهی محاورهای (Conversational Awareness): برخلاف ASRهای سنتی که فقط روی تبدیل کلمه به متن تمرکز دارند، CSR مدیریت نوبتهای گفتگو و زمانبندی را بر عهده میگیرد.
- تشخیص زمینهای (Contextual Detection): این مدل به جای تکیه بر سکوت کاربر، از سیگنالهای زمینهای برای تشخیص پایان یک فکر در چند صد میلیثانیه استفاده میکند.
- تغییر پویا (Dynamic Switching): پشتیبانی از ۱۰ زبان (از جمله انگلیسی، اسپانیایی، فرانسوی، آلمانی، هندی، روسی، پرتغالی، ژاپنی، ایتالیایی و هلندی) که اجازه میدهد کاربر در میانهی یک جمله زبان خود را تغییر دهد.
همانطور که در تحلیلهای پیشین ما دربارهی مدلهای چندوجهی (Multimodal) اشاره کردیم، یکپارچگی در لایههای پردازش، کلید دستیابی به تجربه انسانی است. این زیرساخت اکنون تبدیل گفتار به متن (Speech-to-Text - STT)، تبدیل متن به گفتار (Text-to-Speech - TTS) و تبدیل گفتار به گفتار (Speech-to-Speech - STS) را در یک سیستم واحد ادغام کرده است.
طبق اعلام Deepgram، بیش از ۱,۰۰۰ سازمان در حال حاضر از این فناوری برای کاهش تأخیر و خطاهای رایج در مسیریابی صوتی استفاده میکنند. با تعبیه مستقیم تشخیص نوبت در مدل، توسعهدهندگان اکنون میتوانند تنها با یک API، جریان گفتگو را مدیریت کنند.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.
گام بعدی شما
- بررسی API جدید Flux برای تست قابلیت تغییر زبان در لحظه (Code-switching).
- ارزیابی میزان کاهش تأخیر (Latency) در محیطهای با نویز بالا در مقایسه با مدلهای تکزبانه.
- تحلیل اثر حذف لایههای واسط بر هزینههای استنتاج (Inference) در مقیاس بالا.




گفتگو