گزارش Artificial Analysis: تأخیر Nemotron 3.5 انویدیا به ۰.۰۷ ثانیه رسید

اگر در حال ساخت یک عامل صوتی هستید، گلوگاه تبدیل گفتار به متن همین حالا از بین رفت. طبق بنچمارک‌های Artificial Analysis، مدل Nemotron 3.5 ASR تنها ۰.۰۷ ثانیه پس از پایان صحبت کاربر، متن نهایی را تحویل می‌دهد.

بیشتر سامانه‌های جاری تبدیل گفتار به متن (ASR) — که شبیه به یک تندنویس است که هم‌زمان با سخنران می‌نویسد — برای رسیدن به حالت «در لحظه»، بخش‌های هم‌پوشان صدا را چندین بار پردازش می‌کنند. این روش قدرت محاسباتی زیادی می‌سوزاند و باعث می‌شود توسعه‌دهنده مجبور شود بین سرعت و دقت یکی را انتخاب کند. همان‌طور که در تحلیل قبلی ما درباره‌ی بهینه‌سازی مدل‌های لبه اشاره کردیم، حذف این تضاد کلید مقیاس‌پذیری است. انویدیا اکنون برای کسانی که به جای ده‌ها API پراکنده، یک مدل واحد برای ۴۰ زبان می‌خواهند، راهکار ارائه داده است.

این مدل ۶۰۰ میلیون پارامتری از معماری Cache-Aware FastConformer-RNNT استفاده می‌کند. این سیستم حالت داخلی رمزگذار را ذخیره کرده و دوباره از آن استفاده می‌کند تا هر فریم صوتی دقیقاً یک بار پردازش شود. ویژگی‌های فنی اصلی عبارتند از:

پشتیبانی از ۴۰ زبان و منطقه، شامل انگلیسی، اسپانیایی، عربی و کره‌ای.
قابلیت داخلی برای درج علائم نگارشی و حروف بزرگ.
کنترل تأخیر از طریق پیچ تنظیم att_context_size (از ۸۰ میلی‌ثانیه برای عامل‌های صوتی تا ۱.۱۲ ثانیه برای حداکثر دقت).
انتشار با وزن‌های باز (Open Weights) — یعنی «دستور پخت» مدل علناً منتشر شده است — در Hugging Face از طریق runtime مدل NeMo.

Watch the Nemotron 3.5 ASR Fine-Tuning Walkthrough

بر اساس مستندات انویدیا، برد واقعی این ابزار برای توسعه‌دهندگان در بخش شخصی‌سازی است. امکان تنظیم دقیق (Fine-tuning) — مثل وقتی که به یک پزشک عمومی، تخصص پوست می‌دهیم تا در یک حوزه دقیق شود — برای زبان‌های کم‌کاربرد، تحولی ایجاد می‌کند. در آزمایش‌های ۴ ژوئن ۲۰۲۶، انویدیا نشان داد که دوره‌های کوتاه تنظیم دقیق، نرخ خطای کلمات (WER) را برای زبان بلغاری از ۲۲٪ به ۱۵٪ و برای یونانی از ۳۵٪ به ۲۴٪ کاهش داده است. این یعنی ASR بالاخره برای دامنه‌های تخصصی پزشکی یا حقوقی در زبان‌های غیرانگلیسی کاربردی می‌شود.

گام بعدی شما

برای شروع تنظیم دقیق مدل روی دامنه‌های خاص، از مخزن گیت‌هاب NeMo استفاده کنید.
منتظر انتشار NIM در اواخر این ماه باشید تا از پشتیبانی streaming gRPC در سخت‌افزارهای Ampere، Hopper و Jetson بهره‌مند شوید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است؛ اثر این بهینه‌سازی‌ها بر مصرف انرژی در لبه را در گزارش بعدی بررسی خواهیم کرد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

پشتیبانی از ۴۰ زبان و منطقه، شامل انگلیسی، اسپانیایی، عربی و کره‌ای.
قابلیت داخلی برای درج علائم نگارشی و حروف بزرگ.
کنترل تأخیر از طریق پیچ تنظیم att_context_size (از ۸۰ میلی‌ثانیه برای عامل‌های صوتی تا ۱.۱۲ ثانیه برای حداکثر دقت).
انتشار با وزن‌های باز (Open Weights) — یعنی «دستور پخت» مدل علناً منتشر شده است — در Hugging Face از طریق runtime مدل NeMo.

Watch the Nemotron 3.5 ASR Fine-Tuning Walkthrough

گام بعدی شما

برای شروع تنظیم دقیق مدل روی دامنه‌های خاص، از مخزن گیت‌هاب NeMo استفاده کنید.
منتظر انتشار NIM در اواخر این ماه باشید تا از پشتیبانی streaming gRPC در سخت‌افزارهای Ampere، Hopper و Jetson بهره‌مند شوید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش Artificial Analysis: تأخیر Nemotron 3.5 انویدیا به ۰.۰۷ ثانیه رسید

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش Artificial Analysis: تأخیر Nemotron 3.5 انویدیا به ۰.۰۷ ثانیه رسید

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش Artificial Analysis: تأخیر Nemotron 3.5 انویدیا به ۰.۰۷ ثانیه رسید

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش Artificial Analysis: تأخیر Nemotron 3.5 انویدیا به ۰.۰۷ ثانیه رسید

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران