آیا یک مدل میتواند بدون کاهش بهرهوری ذهنی، خودش را آموزش دهد؟ پاسخ این پرسش در عبور از استانداردهای قدیمی صنعت و پذیرش رویکردهای جسورانهتر نهفته است.
به نقل از مقالهای که در ۷ مه ۲۰۲۶ در arxiv.org منتشر شد، روش جدیدی به نام تقطیر خودبهخود مبتنی بر ترجیح (Preference-Based Self-Distillation یا PBSD) معرفی شده است. بر اساس مستندات این پژوهش، PBSD تمرکز را از تطبیق مستقیم توزیع مدل معلم به یک هدف مبتنی بر تنظیم منظم پاداش (Reward Regularization) تغییر میدهد؛ تغییری که منجر به خلق سیاستی میشود که به طور اثباتی بر مدل معلم اولیه برتری دارد.
در روشهای سنتی تقطیر خودبهخود (Self-Distillation) — جایی که یک مدل همزمان نقش معلم و شاگرد را ایفا میکند — ما معمولاً با ناپایداری در آموزش و افت تدریجی تواناییهای استدلالی مواجه هستیم. PBSD این شکستها را از طریق سه سازوکار کلیدی حل میکند:
- تنظیم منظم پاداش: ایجاد هدفی که بهینهی تحلیلی آن، توزیع معلم بازوزنشده با پاداش است.
- بهینهسازی شکاف ترجیحی (Preference Gap Optimization): بهینهسازی فاصله بین نمونههای معلم و شاگرد در حالی که نمونهبرداری بر اساس سیاست فعلی حفظ میشود.
- تنوع اکتشافی (Exploratory Diversity): غلبه بر کمبود تنوعی که معمولاً در روشهای تقویتشده با پرامپت دیده میشود.
همانطور که در تحلیلهای پیشین ما دربارهی مدلهای استدلالی اشاره کردیم، پایداری در آموزش همواره چالش اصلی برای رسیدن به دقتهای بالاتر بوده است. طبق گزارش این پژوهش، PBSD در بنچمارکهای استدلال ریاضی و استفاده از ابزار (Tool Use) در مقیاسهای مختلف مدل، بهطور مداوم قویترین عملکرد میان رقبای خود را ثبت کرده است. این متد علاوه بر بهبود چشمگیر پایداری، کارایی توکنها را نیز حفظ میکند.
این چرخش راهبردی به سمت اهداف منظمشده با پاداش، نشاندهندهی گذار صنعت از «تطبیق ساده توزیع» به «تکامل ترجیحمحور» در وزنهای مدل است. اکنون که مدلها بهطور فزایندهای دادههای آموزشی خود را تولید میکنند، این پرسش مطرح است که آیا تنظیم منظم پاداش به استاندارد جدید بهبود خودکار مدلها تبدیل خواهد شد یا خیر.
اما این تحول در آموزش، تنها بخشی از پازل است؛ تأثیر این متد بر کاهش هزینههای استنتاج (Inference) را در گزارش بعدی بررسی میکنیم.
گام بعدی شما
- مقاله کامل PBSD را در Arxiv برای درک ریاضیات پشت تنظیم منظم پاداش مطالعه کنید.
- اگر از متدهای RLHF استفاده میکنید، بررسی کنید که چگونه بهینهسازی شکاف ترجیحی میتواند جایگزین تطبیق KL شود.
- عملکرد مدلهای وزنباز (Open Weights) را در وظایف استدلالی پیچیده با این متد جدید بسنجید.




گفتگو