تله‌ی نامرئی vLLM V1: وقتی یک تغییر کوچک، آموزش RL را متوقف می‌کند

آیا یک تغییر جزئی در محاسبات logprob می‌تواند کل یک فرآیند آموزشی RL را به فنا دهد؟ برای تیم‌هایی که در حال مهاجرت به vLLM V1 هستند، پاسخ یک «بله» قاطع است.

در ۶ مئی ۲۰۲۶، به نقل از گزارش فنی وب‌سایت huggingface.co، تلاشی برای رفع «عدم تطابق آموزش-استنتاج» (train-inference mismatch) در هنگام انتقال از نسخه ۰.۸.۵ (V0) به نسخه ۰.۱۸.۱ (V1) صورت گرفت. طبق گزارش این تیم، هرگونه اختلاف در نحوه محاسبه لگ‌پراپ (logprob) به‌طور بنیادی دینامیک‌های آموزشی را تغییر داده و منجر به منحنی‌های پاداش واگرا و بی‌ثباتی در آنتروپی می‌شود.

بر اساس این مستندات، تلاش‌های اولیه برای مهاجرت به V1 شکست خورد؛ زیرا لگ‌پراپ‌ها و پاداش‌های سمت آموزش‌دهنده در مراحل ابتدایی، از مرجع V0 فاصله گرفتند. این شکاف به‌ویژه در نرخ کلیپ (clip rate) — که فاصله پالیسی بین rollout و آموزش‌دهنده را ردیابی می‌کند — مشهود بود.

برای حل این بحران، تیم مذکور چهار نقطه شکست حیاتی را شناسایی و اصلاح کرد:

معناشناسی لگ‌پراپ (Logprob Semantics): نسخه V1 به‌طور پیش‌فرض از خروجی‌های خام مدل استفاده می‌کند. برای تطبیق با توزیع مورد انتظار آموزش‌دهنده، تغییر به حالت logprobs-mode=processed_logprobs ضروری بود.
پیش‌فرض‌های زمان اجرا (Runtime Defaults): قابلیت‌هایی مانند کش پیشوندی (prefix caching) و زمان‌بندی نامتقارن (async scheduling) تفاوت‌هایی در طول عمر کش ایجاد می‌کردند که برای رسیدن به تطابق کامل، باید غیرفعال می‌شدند.
به‌روزرسانی وزن‌ها (Weight Updates): پیاده‌سازی توالی خاصی با استفاده از pause_generation(mode="keep", clear_cache=False) برای شبیه‌سازی رفتار V0 در بازگشت به حالت قبلی بدون ابطال کش.
دقت عددی (Numerical Precision): در نهایت، استفاده از یک سر پیش‌بینی fp32 (fp32 lm_head) برای آخرین تصویرسازی (projection) لازم بود تا از تأثیر تغییرات کوچک لوجیت بر نسبت‌های پالیسی جلوگیری شود.

همان‌طور که در تحلیل قبلی ما درباره‌ی کتابخانه‌های عامل‌محور (agentic) مبتنی بر C اشاره کردیم، پایداری زیرساخت، سنگ‌بنای رفتارهای پیچیده در هوش مصنوعی است. بدون تطابق کامل در لایه‌ی بک‌اند، اصلاحات در سمت هدف (objective-side) مانند وزن‌دهی مجدد نسبت اهمیت، تنها باعث پوشاندن رفتارهای معیوب استنتاج (inference) می‌شود.

با مقیاس‌پذیری سیستم‌های RL، احتمالاً صنعت به‌سوی «دستورالعمل‌های تطبیق» استاندارد حرکت خواهد کرد تا از این شکست‌های خاموش و فاجعه‌بار در هنگام ارتقای موتورها جلوگیری شود. اما این تنها بخشی از چالش است؛ تأثیر این تغییرات بر مدل‌های استدلالی در گزارش بعدی ما بررسی خواهد شد.

گام بعدی شما

اگر در حال مهاجرت به vLLM V1 هستید، ابتدا حالت processed_logprobs را فعال کنید.
در محیط‌های حساس RL، تمامی بهینه‌سازی‌های کش پیشوندی را برای تست تطبیق غیرفعال کنید.
برای جلوگیری از واگرایی پالیسی، از دقت fp32 در لایه‌ی lm_head استفاده کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

برای حل این بحران، تیم مذکور چهار نقطه شکست حیاتی را شناسایی و اصلاح کرد:

معناشناسی لگ‌پراپ (Logprob Semantics): نسخه V1 به‌طور پیش‌فرض از خروجی‌های خام مدل استفاده می‌کند. برای تطبیق با توزیع مورد انتظار آموزش‌دهنده، تغییر به حالت logprobs-mode=processed_logprobs ضروری بود.
پیش‌فرض‌های زمان اجرا (Runtime Defaults): قابلیت‌هایی مانند کش پیشوندی (prefix caching) و زمان‌بندی نامتقارن (async scheduling) تفاوت‌هایی در طول عمر کش ایجاد می‌کردند که برای رسیدن به تطابق کامل، باید غیرفعال می‌شدند.
به‌روزرسانی وزن‌ها (Weight Updates): پیاده‌سازی توالی خاصی با استفاده از pause_generation(mode="keep", clear_cache=False) برای شبیه‌سازی رفتار V0 در بازگشت به حالت قبلی بدون ابطال کش.
دقت عددی (Numerical Precision): در نهایت، استفاده از یک سر پیش‌بینی fp32 (fp32 lm_head) برای آخرین تصویرسازی (projection) لازم بود تا از تأثیر تغییرات کوچک لوجیت بر نسبت‌های پالیسی جلوگیری شود.

گام بعدی شما

اگر در حال مهاجرت به vLLM V1 هستید، ابتدا حالت processed_logprobs را فعال کنید.
در محیط‌های حساس RL، تمامی بهینه‌سازی‌های کش پیشوندی را برای تست تطبیق غیرفعال کنید.
برای جلوگیری از واگرایی پالیسی، از دقت fp32 در لایه‌ی lm_head استفاده کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تله‌ی نامرئی vLLM V1: وقتی یک تغییر کوچک، آموزش RL را متوقف می‌کند

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تله‌ی نامرئی vLLM V1: وقتی یک تغییر کوچک، آموزش RL را متوقف می‌کند

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تله‌ی نامرئی vLLM V1: وقتی یک تغییر کوچک، آموزش RL را متوقف می‌کند

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تله‌ی نامرئی vLLM V1: وقتی یک تغییر کوچک، آموزش RL را متوقف می‌کند

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران