باید بدانید که سقف تواناییهای استدلالی در مدلهای زبانی، برخلاف باور عمومی، صرفاً تابع افزایش تعداد پارامترها نیست. تصور کنید مدل شما در مواجهه با مسائل ریاضی، یا بیش از حد محتاط است و یا در تلهی مسائل بسیار ساده و دشوار گرفتار شده است؛ این دقیقاً همان جایی است که بهینهسازی سیاست آموزشی وارد عمل میشود.
طبق گزارش منتشرشده در ۱۱ مه ۲۰۲۶ در arXiv، چارچوب بهینهسازی EXPO توانست نرخ موفقیت (pass@32) مدلهای زبانی در آزمون AIME ۲۰۲۵ را از ۶۳.۳۳٪ به ۷۶.۶۷٪ برساند. این جهش ۱۳.۳۴ درصدی ثابت میکند که با تغییر متدولوژی آموزش، میتوان از مدلهای کوچکتر نتایجی در سطح مدلهای پیشرو گرفت.
همانطور که در تحلیلهای پیشین ما دربارهی مدلهای استدلالی اشاره کردیم، چالش اصلی در این مسیر، مدیریت تعادل بین اکتشاف و پایداری است. در حال حاضر، یادگیری تقویتشده با پاداشهای قابلتأیید (RLVR) عمدتاً بر بهینهسازی سیاست نسبی گروهی (GRPO) تکیه دارد. اما به نقل از پژوهشگران، GRPO با دو ناکارآمدی کلیدی دستوپنجه نرم میکند: جریمههای صلب KL (KL penalty) که مانع از اکتشاف مدل میشود و نمونهبرداری یکنواخت که توان محاسباتی را روی مسائلی تلف میکند که یا بیش از حد سادهاند یا بسیار دشوار.
چارچوب EXPO برای حل این گرهها، دو ماژول سبک را معرفی کرده است:
- مقیاسبندی تطبیقی KL بر اساس دقت (AKL): این سیستم بهطور پویا شدت تنظیم KL را تغییر میدهد؛ یعنی وقتی مدل ضعیف عمل میکند، جریمه را کاهش میدهد تا مدل بیشتر «جستجو» کند و وقتی دقت بالا میرود، جریمه را سختگیرانهتر میکند تا سیاست مدل تثبیت شود.
- نمونهبرداری برنامه درسی گاوسی (GCS): به جای انتخاب تصادفی مسائل، وزنها را بر اساس توزیع گاوسی حول دقت ۰.۵ تنظیم میکند تا مدل دقیقاً روی «مرز یادگیری» خود تمرکز کند.
در آزمایشهای انجامشده روی مدلهای DeepSeek-R1-Distill-Qwen-1.5B و Qwen3-8B-Base در ۶ بنچمارک ریاضی، مدل ۸ میلیاردی شاهد بهبود میانگین ۲.۶۶ در نرخ pass@32 بود.
این تغییر رویکرد، این فرض را که تمام دادههای آموزشی ارزش یکسانی دارند، به چالش میکشد. EXPO ثابت میکند که اثرگذارترین سیگنالهای گرادیان در لبهی تواناییهای فعلی مدل نهفتهاند و مسیر رسیدن به نمرات بالاتر، در مدیریت هوشمند برنامه درسی است، نه صرفاً افزایش حجم دادهها.
گام بعدی شما
- بررسی ادغام تکنیکهای نمونهبرداری تطبیقی در خطلولههای تقطیر (Distillation) نسل جدید مدلهای R1.
- تحلیل اثر AKL بر کاهش نرخ توهم (Hallucination) در پاسخهای استدلالی.
- آزمایش متد GCS برای دستهبندی دادههای آموزشی در پروژههای شخصی مدلهای کوچک.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است؛ اثر این بهینهسازی بر کاهش نیاز به GPU را در گزارش بعدی بررسی خواهیم کرد.




گفتگو