گلوگاه RL شکسته شد؛ استراتژی NVIDIA برای شتاب‌دهی به مدل‌های استدلالی

تصور کنید ۶۰ درصد از بودجه‌ی محاسباتی کلاستر GPU شما صرف انتظار شود، نه پردازش. اگر هنوز از روش‌های سنتی برای آموزش مدل‌های استدلالی استفاده می‌کنید، احتمالاً بخش بزرگی از قدرت سخت‌افزاری خود را در مرحله‌ی تولید داده‌ها از دست می‌دهید.

به نقل از تیم تحقیقاتی NVIDIA در مقاله‌ی ۱۸ آوریل ۲۰۲۶، این شرکت با ادغام رمزگشایی گمانه‌زن (Speculative Decoding) در NeMo RL v0.6.0 و استفاده از بک‌اند vLLM، توانسته است سرعت تولید رول‌اوت (Rollout) را بدون کاهش دقت، ۱.۸ برابر افزایش دهد. این یعنی توزیع خروجی مدل هدف دقیقاً مشابه تولید خودرگرسیونی (Autoregressive) باقی می‌ماند و نیازی به اصلاحات خارج‌سیاق (Off-policy) نیست.

بر اساس مستندات فنی NeMo، تولید رول‌اوت در حجم‌های کاری همزمان (Synchronous)، بین ۶۵ تا ۷۲ درصد از کل زمان هر گام را می‌بلعد. تیم NVIDIA با به‌کارگیری چارچوب پیش‌نویس EAGLE-3 روی ۳۲ پردازنده‌ی GB200، نتایج خیره‌کننده‌ای را ثبت کرده است:

RL-Zero (8B): کاهش تأخیر رول‌اوت از ۱۰۰ ثانیه به ۵۶.۶ ثانیه (۱.۸ برابر سریع‌تر).
RL-Think (8B): کاهش تأخیر از ۱۳۳.۶ ثانیه به ۸۷ ثانیه (۱.۵۴ برابر سریع‌تر).
شتاب کلی گام‌ها: افزایش سرعت ۱.۴۱ برابری برای RL-Zero و ۱.۳۵ برابری برای RL-Think.

The user wants a short Persian (Farsi) translation for an image alt text in an article titled: "Top 7 Benchmarks That Actuall

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی قوانین مقیاس‌پذیری (Scaling Laws) اشاره کردیم، بهینه‌سازی لایه‌های میانی اغلب مؤثرتر از افزایش کورکورانه‌ی سخت‌افزار است. محققان NVIDIA دریافتند که مقداردهی اولیه پیش‌نویس بسیار حیاتی‌تر از طول آن است؛ به‌طوری که استفاده از مجموعه‌داده‌ی DAPO نتایجی بسیار بهتر از UltraChat داشت. همچنین، آن‌ها «نقطه‌ی بهینه» را در طول پیش‌نویس k=3 یافتند؛ افزایش این مقدار به ۵ یا ۷، به دلیل سربار تأیید (Verification)، سرعت را در وظایف استدلالی پیچیده کاهش می‌داد.

این دستاوردها با افزایش اندازه مدل، اثرگذاری بیشتری دارند. طبق پیش‌بینی‌های NVIDIA، برای مدل Qwen3-235B-A22B روی ۲۰۴۸ پردازنده‌ی GB200، سرعت رول‌اوت می‌تواند تا ۳.۵ برابر و سرعت کلی آموزش تا ۲.۵ برابر افزایش یابد. این سازوکار مکمل اجرای نامتقارن (Asynchronous) است و هزینه هر رول‌اوت را کاهش می‌دهد.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

گام بعدی شما

به‌روزرسانی به NeMo RL v0.6.0 برای بهره‌مندی از شتاب‌دهنده‌ی vLLM.
تنظیم طول پیش‌نویس (Draft Length) روی مقدار k=3 برای بهینه‌سازی تعادل بین سرعت و دقت.
بررسی مجموعه‌داده‌های تخصصی مانند DAPO برای مقداردهی اولیه مدل پیش‌نویس.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

RL-Zero (8B): کاهش تأخیر رول‌اوت از ۱۰۰ ثانیه به ۵۶.۶ ثانیه (۱.۸ برابر سریع‌تر).
RL-Think (8B): کاهش تأخیر از ۱۳۳.۶ ثانیه به ۸۷ ثانیه (۱.۵۴ برابر سریع‌تر).
شتاب کلی گام‌ها: افزایش سرعت ۱.۴۱ برابری برای RL-Zero و ۱.۳۵ برابری برای RL-Think.

The user wants a short Persian (Farsi) translation for an image alt text in an article titled: "Top 7 Benchmarks That Actuall

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

گام بعدی شما

به‌روزرسانی به NeMo RL v0.6.0 برای بهره‌مندی از شتاب‌دهنده‌ی vLLM.
تنظیم طول پیش‌نویس (Draft Length) روی مقدار k=3 برای بهینه‌سازی تعادل بین سرعت و دقت.
بررسی مجموعه‌داده‌های تخصصی مانند DAPO برای مقداردهی اولیه مدل پیش‌نویس.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گلوگاه RL شکسته شد؛ استراتژی NVIDIA برای شتاب‌دهی به مدل‌های استدلالی

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گلوگاه RL شکسته شد؛ استراتژی NVIDIA برای شتاب‌دهی به مدل‌های استدلالی

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گلوگاه RL شکسته شد؛ استراتژی NVIDIA برای شتاب‌دهی به مدل‌های استدلالی

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گلوگاه RL شکسته شد؛ استراتژی NVIDIA برای شتاب‌دهی به مدل‌های استدلالی

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران