اگر در حال ساخت یک عامل صوتی هستید، گلوگاه تبدیل گفتار به متن همین حالا از بین رفت. طبق بنچمارکهای Artificial Analysis، مدل Nemotron 3.5 ASR تنها ۰.۰۷ ثانیه پس از پایان صحبت کاربر، متن نهایی را تحویل میدهد.
بیشتر سامانههای جاری تبدیل گفتار به متن (ASR) — که شبیه به یک تندنویس است که همزمان با سخنران مینویسد — برای رسیدن به حالت «در لحظه»، بخشهای همپوشان صدا را چندین بار پردازش میکنند. این روش قدرت محاسباتی زیادی میسوزاند و باعث میشود توسعهدهنده مجبور شود بین سرعت و دقت یکی را انتخاب کند. همانطور که در تحلیل قبلی ما دربارهی بهینهسازی مدلهای لبه اشاره کردیم، حذف این تضاد کلید مقیاسپذیری است. انویدیا اکنون برای کسانی که به جای دهها API پراکنده، یک مدل واحد برای ۴۰ زبان میخواهند، راهکار ارائه داده است.
این مدل ۶۰۰ میلیون پارامتری از معماری Cache-Aware FastConformer-RNNT استفاده میکند. این سیستم حالت داخلی رمزگذار را ذخیره کرده و دوباره از آن استفاده میکند تا هر فریم صوتی دقیقاً یک بار پردازش شود. ویژگیهای فنی اصلی عبارتند از:
- پشتیبانی از ۴۰ زبان و منطقه، شامل انگلیسی، اسپانیایی، عربی و کرهای.
- قابلیت داخلی برای درج علائم نگارشی و حروف بزرگ.
- کنترل تأخیر از طریق پیچ تنظیم
att_context_size(از ۸۰ میلیثانیه برای عاملهای صوتی تا ۱.۱۲ ثانیه برای حداکثر دقت). - انتشار با وزنهای باز (Open Weights) — یعنی «دستور پخت» مدل علناً منتشر شده است — در Hugging Face از طریق runtime مدل NeMo.

بر اساس مستندات انویدیا، برد واقعی این ابزار برای توسعهدهندگان در بخش شخصیسازی است. امکان تنظیم دقیق (Fine-tuning) — مثل وقتی که به یک پزشک عمومی، تخصص پوست میدهیم تا در یک حوزه دقیق شود — برای زبانهای کمکاربرد، تحولی ایجاد میکند. در آزمایشهای ۴ ژوئن ۲۰۲۶، انویدیا نشان داد که دورههای کوتاه تنظیم دقیق، نرخ خطای کلمات (WER) را برای زبان بلغاری از ۲۲٪ به ۱۵٪ و برای یونانی از ۳۵٪ به ۲۴٪ کاهش داده است. این یعنی ASR بالاخره برای دامنههای تخصصی پزشکی یا حقوقی در زبانهای غیرانگلیسی کاربردی میشود.
گام بعدی شما
- برای شروع تنظیم دقیق مدل روی دامنههای خاص، از مخزن گیتهاب NeMo استفاده کنید.
- منتظر انتشار NIM در اواخر این ماه باشید تا از پشتیبانی streaming gRPC در سختافزارهای Ampere، Hopper و Jetson بهرهمند شوید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است؛ اثر این بهینهسازیها بر مصرف انرژی در لبه را در گزارش بعدی بررسی خواهیم کرد.




گفتگو