تصور کنید ۶۰ درصد از بودجهی محاسباتی کلاستر GPU شما صرف انتظار شود، نه پردازش. اگر هنوز از روشهای سنتی برای آموزش مدلهای استدلالی استفاده میکنید، احتمالاً بخش بزرگی از قدرت سختافزاری خود را در مرحلهی تولید دادهها از دست میدهید.
به نقل از تیم تحقیقاتی NVIDIA در مقالهی ۱۸ آوریل ۲۰۲۶، این شرکت با ادغام رمزگشایی گمانهزن (Speculative Decoding) در NeMo RL v0.6.0 و استفاده از بکاند vLLM، توانسته است سرعت تولید رولاوت (Rollout) را بدون کاهش دقت، ۱.۸ برابر افزایش دهد. این یعنی توزیع خروجی مدل هدف دقیقاً مشابه تولید خودرگرسیونی (Autoregressive) باقی میماند و نیازی به اصلاحات خارجسیاق (Off-policy) نیست.
بر اساس مستندات فنی NeMo، تولید رولاوت در حجمهای کاری همزمان (Synchronous)، بین ۶۵ تا ۷۲ درصد از کل زمان هر گام را میبلعد. تیم NVIDIA با بهکارگیری چارچوب پیشنویس EAGLE-3 روی ۳۲ پردازندهی GB200، نتایج خیرهکنندهای را ثبت کرده است:
- RL-Zero (8B): کاهش تأخیر رولاوت از ۱۰۰ ثانیه به ۵۶.۶ ثانیه (۱.۸ برابر سریعتر).
- RL-Think (8B): کاهش تأخیر از ۱۳۳.۶ ثانیه به ۸۷ ثانیه (۱.۵۴ برابر سریعتر).
- شتاب کلی گامها: افزایش سرعت ۱.۴۱ برابری برای RL-Zero و ۱.۳۵ برابری برای RL-Think.

همانطور که در تحلیلهای پیشین ما دربارهی قوانین مقیاسپذیری (Scaling Laws) اشاره کردیم، بهینهسازی لایههای میانی اغلب مؤثرتر از افزایش کورکورانهی سختافزار است. محققان NVIDIA دریافتند که مقداردهی اولیه پیشنویس بسیار حیاتیتر از طول آن است؛ بهطوری که استفاده از مجموعهدادهی DAPO نتایجی بسیار بهتر از UltraChat داشت. همچنین، آنها «نقطهی بهینه» را در طول پیشنویس k=3 یافتند؛ افزایش این مقدار به ۵ یا ۷، به دلیل سربار تأیید (Verification)، سرعت را در وظایف استدلالی پیچیده کاهش میداد.
این دستاوردها با افزایش اندازه مدل، اثرگذاری بیشتری دارند. طبق پیشبینیهای NVIDIA، برای مدل Qwen3-235B-A22B روی ۲۰۴۸ پردازندهی GB200، سرعت رولاوت میتواند تا ۳.۵ برابر و سرعت کلی آموزش تا ۲.۵ برابر افزایش یابد. این سازوکار مکمل اجرای نامتقارن (Asynchronous) است و هزینه هر رولاوت را کاهش میدهد.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.
گام بعدی شما
- بهروزرسانی به NeMo RL v0.6.0 برای بهرهمندی از شتابدهندهی vLLM.
- تنظیم طول پیشنویس (Draft Length) روی مقدار k=3 برای بهینهسازی تعادل بین سرعت و دقت.
- بررسی مجموعهدادههای تخصصی مانند DAPO برای مقداردهی اولیه مدل پیشنویس.




گفتگو