GPT-4o LATENCY240msCLAUDE OPUS 4.7ONLINENVDA+1.2%MISTRAL LARGE 2STREAMINGOPENAI API99.97% UPTIMEGROQ MIXTRAL580 tok/sGEMINI 2.5 PROCTX 2MANTHROPIC STATUSOKTSMC+0.4%PERPLEXITYINDEXINGGPT-4o LATENCY240msCLAUDE OPUS 4.7ONLINENVDA+1.2%MISTRAL LARGE 2STREAMINGOPENAI API99.97% UPTIMEGROQ MIXTRAL580 tok/sGEMINI 2.5 PROCTX 2MANTHROPIC STATUSOKTSMC+0.4%PERPLEXITYINDEXING
پرش به محتوای مقاله

گزارش Artificial Analysis: تأخیر Nemotron 3.5 انویدیا به ۰.۰۷ ثانیه رسید

·۱۴ خرداد ۱۴۰۵۹ دقیقه مطالعه
تنظیم دقیق نماترون ۳.۵ ASR برای زبان، دامنه یا لهجه
تنظیم دقیق نماترون ۳.۵ ASR برای زبان، دامنه یا لهجه
اشتراک‌گذاری
واقعاً چه چیز جدید است؟

معرفی معماری Cache-Aware FastConformer-RNNT که با حذف پردازش‌های تکراری تکه‌های صوتی، تأخیر را به زیر ۰.۱ ثانیه رسانده بدون اینکه دقت مدل افت کند.

اگر در حال ساخت یک عامل صوتی هستید، گلوگاه تبدیل گفتار به متن همین حالا از بین رفت. طبق بنچمارک‌های Artificial Analysis، مدل Nemotron 3.5 ASR تنها ۰.۰۷ ثانیه پس از پایان صحبت کاربر، متن نهایی را تحویل می‌دهد.

بیشتر سامانه‌های جاری تبدیل گفتار به متن (ASR) — که شبیه به یک تندنویس است که هم‌زمان با سخنران می‌نویسد — برای رسیدن به حالت «در لحظه»، بخش‌های هم‌پوشان صدا را چندین بار پردازش می‌کنند. این روش قدرت محاسباتی زیادی می‌سوزاند و باعث می‌شود توسعه‌دهنده مجبور شود بین سرعت و دقت یکی را انتخاب کند. همان‌طور که در تحلیل قبلی ما درباره‌ی بهینه‌سازی مدل‌های لبه اشاره کردیم، حذف این تضاد کلید مقیاس‌پذیری است. انویدیا اکنون برای کسانی که به جای ده‌ها API پراکنده، یک مدل واحد برای ۴۰ زبان می‌خواهند، راهکار ارائه داده است.

این مدل ۶۰۰ میلیون پارامتری از معماری Cache-Aware FastConformer-RNNT استفاده می‌کند. این سیستم حالت داخلی رمزگذار را ذخیره کرده و دوباره از آن استفاده می‌کند تا هر فریم صوتی دقیقاً یک بار پردازش شود. ویژگی‌های فنی اصلی عبارتند از:

  • پشتیبانی از ۴۰ زبان و منطقه، شامل انگلیسی، اسپانیایی، عربی و کره‌ای.
  • قابلیت داخلی برای درج علائم نگارشی و حروف بزرگ.
  • کنترل تأخیر از طریق پیچ تنظیم att_context_size (از ۸۰ میلی‌ثانیه برای عامل‌های صوتی تا ۱.۱۲ ثانیه برای حداکثر دقت).
  • انتشار با وزن‌های باز (Open Weights) — یعنی «دستور پخت» مدل علناً منتشر شده است — در Hugging Face از طریق runtime مدل NeMo.

Watch the Nemotron 3.5 ASR Fine-Tuning Walkthrough

بر اساس مستندات انویدیا، برد واقعی این ابزار برای توسعه‌دهندگان در بخش شخصی‌سازی است. امکان تنظیم دقیق (Fine-tuning) — مثل وقتی که به یک پزشک عمومی، تخصص پوست می‌دهیم تا در یک حوزه دقیق شود — برای زبان‌های کم‌کاربرد، تحولی ایجاد می‌کند. در آزمایش‌های ۴ ژوئن ۲۰۲۶، انویدیا نشان داد که دوره‌های کوتاه تنظیم دقیق، نرخ خطای کلمات (WER) را برای زبان بلغاری از ۲۲٪ به ۱۵٪ و برای یونانی از ۳۵٪ به ۲۴٪ کاهش داده است. این یعنی ASR بالاخره برای دامنه‌های تخصصی پزشکی یا حقوقی در زبان‌های غیرانگلیسی کاربردی می‌شود.

گام بعدی شما

  • برای شروع تنظیم دقیق مدل روی دامنه‌های خاص، از مخزن گیت‌هاب NeMo استفاده کنید.
  • منتظر انتشار NIM در اواخر این ماه باشید تا از پشتیبانی streaming gRPC در سخت‌افزارهای Ampere، Hopper و Jetson بهره‌مند شوید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است؛ اثر این بهینه‌سازی‌ها بر مصرف انرژی در لبه را در گزارش بعدی بررسی خواهیم کرد.

چرا این موضوع مهم است؟

این پیشرفت با تکیه بر اعتبار سخت‌افزاری انویدیا، استاندارد جدیدی برای تعامل انسان و ماشین تعریف می‌کند. حذف تأخیر در تبدیل گفتار به متن، تجربه استفاده از دستیارهای صوتی را از حالت «سوال و جواب» به «گفتگوی طبیعی» تغییر می‌دهد.

تأثیر برای ایران

به دلیل انتشار وزن‌های باز در Hugging Face، برنامه‌نویسان ایرانی می‌توانند بدون نیاز به APIهای محدود، این مدل را روی سرورهای داخلی مستقر و برای دامنه‌های تخصصی فارسی-عربی تنظیم کنند.

·نگاه ما
تحریریه دات‌هوش

تحلیل ما نشان می‌دهد انویدیا به جای رقابت در اندازه مدل‌ها، بر «بهره‌وری استنتاج» تمرکز کرده است. کاهش تعداد پارامترها به ۶۰۰ میلیون در حالی که تأخیر به شدت پایین آمده، ثابت می‌کند که معماری‌های حافظه‌-آگاه (Cache-Aware) می‌توانند جایگزین مدل‌های غول‌آسای کند باشند. این یک چرخش از «بزرگ‌تر بهتر است» به «هوشمندتر در مدیریت حافظه» است.

منابع

گفتگو

شماره ۰۵۳پنج‌شنبه‌های هوش‌محور

بسته‌ی هفتگی دات‌هوش

۵ خبر، ۲ ابزار، ۱ پرامپت — به‌علاوه ۳ بخش جدید. بدون هیاهو، هر پنج‌شنبه صبح.

خبر کلیدی
ابزار کاربردی
پرامپت حرفه‌ای
تحلیل پژوهش
به‌زودی
زاویه‌ی ایرانی
به‌زودی
تمرین این هفته
به‌زودی
۰۰:۰۰تا شماره بعدیهفته‌ی ۵۳ بدون وقفه