اگر تصور میکنید انتخاب متد گرمبندی (Warm-start) تعیینکننده نهایی عملکرد مدل شماست، احتمالاً در حال هدر دادن منابع محاسباتی هستید. یافتههای جدید نشان میدهند که مراحل اولیه پسآموزش، به جای تعیین سقف عملکرد، صرفاً «رژیم آنتروپی» مدل را مدیریت میکنند.
این کشف در حالی صورت میگیرد که توسعهدهندگان برای بهینهسازی مدلهای بینایی-زبانی (VLM)، بهطور گسترده به پسآموزش دو مرحلهای روی آوردهاند. همانطور که در تحلیل قبلی ما دربارهی همراستاسازی مدلهای چندوجهی اشاره کردیم، بحثهای صنعت همواره بر این محور بوده که آیا یک متد گرمبندی خاص میتواند مدل را برای نتایج بهتر «آماده» کند یا خیر؛ اما این مطالعه وجود یک سقف سیستماتیک پس از ورود به فاز یادگیری تقویتشده (RL) را تایید میکند.
به نقل از گزارشی که در ۹ ژوئن ۲۰۲۶ در arXiv.org منتشر شد، پژوهشگران این دینامیک را با استفاده از مدل Qwen2.5-VL-7B و یک مدل ۷۲ میلیارد پارامتری به عنوان معلم برای متد OPD بررسی کردند. بر اساس مستندات این پژوهش، نتایج کلیدی به شرح زیر است:
- همگرایی عملکرد: هر سه متغیر گرمبندی در بنچمارک داخلی Geometry3K در محدوده ۵۳ تا ۵۴ درصد متوقف شدند که نشان میدهد مرحله اول، نقطه پایان عملکرد در دامنه را تغییر نمیدهد.
- واگرایی آنتروپی: متد تقطیر درون-سیاستی (OPD) با آنتروپی سیاست و تنوع پاسخ بسیار بالاتری وارد RL شد (افزایش ۲ تا ۵.۲ واحدی در pass@16 نسبت به SFT).
- حساسیت خارج از دامنه: تنظیم دقیق نظارتشده (SFT) با توقف زودهنگام، نمرات MathVista را ۲.۱ واحد بهبود داد، اما نسخه بیش-آموزشدیده (Over-trained) باعث سقوط ۹.۵ واحدی نمرات شد.
برای جامعه یادگیری ماشین، این تحلیل معنای گرمبندی را از «تقویتکننده عملکرد» به «مقداردهی اولیه دینامیک» تغییر میدهد. تحلیل دادهها نشان میدهد اگرچه OPD یک سیاست اولیه متنوعتر ایجاد میکند، اما این مزیت در جریان RL محو شده و تفاوت نهایی pass@16 بین مدلها به ۱.۱ واحد کاهش مییابد.
گام بعدی شما
- پرهیز از Over-training: در مرحله SFT از آموزش بیش از حد بپرهیزید تا تعمیمپذیری خارج از دامنه (Out-of-domain) مدل حفظ شود.
- تمرکز بر فاز RL: به جای صرف هزینه زیاد روی متدهای پیچیده گرمبندی، منابع خود را برای بهینهسازی مرحله یادگیری تقویتشده ذخیره کنید.
- پایش آنتروپی: در مدلهای بزرگتر، میزان تنوع پاسخهای اولیه را به عنوان شاخص پایداری RL رصد کنید.
اما آیا این رفتار تحت سلطه آنتروپی در مدلهای با مقیاس عظیمتر نیز تکرار میشود یا با افزایش ظرفیت مدل، شکاف عملکردی باز خواهد شد؟ به تحلیل ما دربارهی قوانین مقیاسپذیری در استدلال بینایی مراجعه کنید.
گفتگو