رمزگشایی از PBSD؛ پایان عصر ناپایداری در تقطیر خودکار مدل‌ها

آیا یک مدل می‌تواند بدون کاهش بهره‌وری ذهنی، خودش را آموزش دهد؟ پاسخ این پرسش در عبور از استانداردهای قدیمی صنعت و پذیرش رویکردهای جسورانه‌تر نهفته است.

به نقل از مقاله‌ای که در ۷ مه ۲۰۲۶ در arxiv.org منتشر شد، روش جدیدی به نام تقطیر خودبه‌خود مبتنی بر ترجیح (Preference-Based Self-Distillation یا PBSD) معرفی شده است. بر اساس مستندات این پژوهش، PBSD تمرکز را از تطبیق مستقیم توزیع مدل معلم به یک هدف مبتنی بر تنظیم منظم پاداش (Reward Regularization) تغییر می‌دهد؛ تغییری که منجر به خلق سیاستی می‌شود که به طور اثباتی بر مدل معلم اولیه برتری دارد.

در روش‌های سنتی تقطیر خودبه‌خود (Self-Distillation) — جایی که یک مدل همزمان نقش معلم و شاگرد را ایفا می‌کند — ما معمولاً با ناپایداری در آموزش و افت تدریجی توانایی‌های استدلالی مواجه هستیم. PBSD این شکست‌ها را از طریق سه سازوکار کلیدی حل می‌کند:

تنظیم منظم پاداش: ایجاد هدفی که بهینه‌ی تحلیلی آن، توزیع معلم بازوزن‌شده با پاداش است.
بهینه‌سازی شکاف ترجیحی (Preference Gap Optimization): بهینه‌سازی فاصله بین نمونه‌های معلم و شاگرد در حالی که نمونه‌برداری بر اساس سیاست فعلی حفظ می‌شود.
تنوع اکتشافی (Exploratory Diversity): غلبه بر کمبود تنوعی که معمولاً در روش‌های تقویت‌شده با پرامپت دیده می‌شود.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی مدل‌های استدلالی اشاره کردیم، پایداری در آموزش همواره چالش اصلی برای رسیدن به دقت‌های بالاتر بوده است. طبق گزارش این پژوهش، PBSD در بنچ‌مارک‌های استدلال ریاضی و استفاده از ابزار (Tool Use) در مقیاس‌های مختلف مدل، به‌طور مداوم قوی‌ترین عملکرد میان رقبای خود را ثبت کرده است. این متد علاوه بر بهبود چشمگیر پایداری، کارایی توکن‌ها را نیز حفظ می‌کند.

این چرخش راهبردی به سمت اهداف منظم‌شده با پاداش، نشان‌دهنده‌ی گذار صنعت از «تطبیق ساده توزیع» به «تکامل ترجیح‌محور» در وزن‌های مدل است. اکنون که مدل‌ها به‌طور فزاینده‌ای داده‌های آموزشی خود را تولید می‌کنند، این پرسش مطرح است که آیا تنظیم منظم پاداش به استاندارد جدید بهبود خودکار مدل‌ها تبدیل خواهد شد یا خیر.

اما این تحول در آموزش، تنها بخشی از پازل است؛ تأثیر این متد بر کاهش هزینه‌های استنتاج (Inference) را در گزارش بعدی بررسی می‌کنیم.

گام بعدی شما

مقاله کامل PBSD را در Arxiv برای درک ریاضیات پشت تنظیم منظم پاداش مطالعه کنید.
اگر از متدهای RLHF استفاده می‌کنید، بررسی کنید که چگونه بهینه‌سازی شکاف ترجیحی می‌تواند جایگزین تطبیق KL شود.
عملکرد مدل‌های وزن‌باز (Open Weights) را در وظایف استدلالی پیچیده با این متد جدید بسنجید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

تنظیم منظم پاداش: ایجاد هدفی که بهینه‌ی تحلیلی آن، توزیع معلم بازوزن‌شده با پاداش است.
بهینه‌سازی شکاف ترجیحی (Preference Gap Optimization): بهینه‌سازی فاصله بین نمونه‌های معلم و شاگرد در حالی که نمونه‌برداری بر اساس سیاست فعلی حفظ می‌شود.
تنوع اکتشافی (Exploratory Diversity): غلبه بر کمبود تنوعی که معمولاً در روش‌های تقویت‌شده با پرامپت دیده می‌شود.

گام بعدی شما

مقاله کامل PBSD را در Arxiv برای درک ریاضیات پشت تنظیم منظم پاداش مطالعه کنید.
اگر از متدهای RLHF استفاده می‌کنید، بررسی کنید که چگونه بهینه‌سازی شکاف ترجیحی می‌تواند جایگزین تطبیق KL شود.
عملکرد مدل‌های وزن‌باز (Open Weights) را در وظایف استدلالی پیچیده با این متد جدید بسنجید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رمزگشایی از PBSD؛ پایان عصر ناپایداری در تقطیر خودکار مدل‌ها

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رمزگشایی از PBSD؛ پایان عصر ناپایداری در تقطیر خودکار مدل‌ها

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رمزگشایی از PBSD؛ پایان عصر ناپایداری در تقطیر خودکار مدل‌ها

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رمزگشایی از PBSD؛ پایان عصر ناپایداری در تقطیر خودکار مدل‌ها

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران