اگر تصور میکنید افزایش حجم داده تنها راه ارتقای استدلال است، باید بدانید که میدان نبرد از «مقدار» به «تأثیر» منتقل شده است. اکنون مدلها میتوانند فارغ از نظارت انسانی، مسیر یادگیری خود را بازتعریف کنند و نقاط ضعف خود را با دقت جراحی شناسایی کنند.
به نقل از مقالهای که ۹ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، چارچوب INFUSER موفق شده است بهبود نسبی بیش از ۲۰ درصدی در بنچمارکهای استدلالی Olympiad و SuperGPQA ایجاد کند. این پیشرفت از طریق انتقال از مجموعهدادههای استاتیک به یک برنامه آموزشی تطبیقی و مبتنی بر «امتیاز تأثیر» (Influence Score) به دست آمده است که اجازه میدهد مدلها با حداکثری از تکامل خودکار (Self-evolution) پیش بروند.
همانطور که در تحلیلهای پیشین ما دربارهی دادههای مصنوعی و تکامل مدلها اشاره کردیم، متدهای فعلی عمدتاً بر دادههای تولیدشده توسط مدلهای معلم یا معیار «سختی» تکیه دارند؛ رویکردی که اغلب پیچیدگی ظاهری را به جای پیشرفت واقعی در یادگیری پاداش میدهد. تا پیش از ژوئن ۲۰۲۶، اکثر تولیدکنندههای بدوننظارت قادر نبودند تفاوت بین یک مسئله «سخت» و یک مسئله «مفید» را تشخیص دهند.
طبق مستندات این پژوهش، INFUSER از دو نقش متقابل و تکاملی استفاده میکند:
- تولیدکننده (Generator): سؤالات و پاسخهای طلایی را از مستندات بدون ساختار استخراج میکند.
- حلکننده (Solver): از این زوجهای سؤال-جواب با استفاده از پاداشهای استاندارد صحت، یاد میگیرد.
برای بهینهسازی این چرخه، تیم تحقیق متد DuGRPO (Dual-normalized GRPO) را معرفی کردند تا تولیدکننده را بر اساس امتیاز تأثیر تنظیم کند. این امتیاز دقیقاً اندازهگیری میکند که یک سؤال پیشنهادی چقدر باعث بهبود عملکرد حلکننده در توزیعهای هدف میشود. آزمایشها روی مدل Qwen3-8B-Base نشان داد که یک تولیدکننده ۸ میلیاردی تکاملی میتواند در تکالیف ریاضی و کدنویسی، از یک تولیدکننده ۳۲ میلیاردی «منجمد» پیشی بگیرد.
این دستاورد نشاندهنده چرخش راهبردی از تأمین «دادههای سخت» به سمت «دادههای اثرگذار» است. در واقع INFUSER با کمیسازی کاربرد هر سؤال، فرآیند خلق بهینهترین برنامه آموزشی را خودکار میکند و وابستگی به مجموعهدادههای حجیم و دستچینشده توسط انسان را کاهش میدهد.
گام بعدی شما
- پژوهشگران میتوانند پیادهسازی DuGRPO را برای سایر حلقههای آموزشی مبتنی بر پاداش بررسی کنند.
- توسعهدهندگان میتوانند از کد باز این پروژه برای تست bridging بین مدلهای پایه و مدلهای تنظیمشده (Instruction-tuned) استفاده کنند.
- بررسی کنید که آیا امتیاز تأثیر میتواند جایگزینی برای فیلتراسیون دستی دادهها در خط لولههای آموزش باشد.
اما اثر این روش بر کاهش هزینههای محاسباتی در مقیاسهای بزرگتر هنوز ناشناخته است — به بررسی ما دربارهی قوانین مقیاسپذیری (Scaling Laws) مراجعه کنید.
گفتگو