INFUSER: جایگزینی «سختی مسئله» با «امتیاز تأثیر» در آموزش مدل‌ها

اگر تصور می‌کنید افزایش حجم داده تنها راه ارتقای استدلال است، باید بدانید که میدان نبرد از «مقدار» به «تأثیر» منتقل شده است. اکنون مدل‌ها می‌توانند فارغ از نظارت انسانی، مسیر یادگیری خود را بازتعریف کنند و نقاط ضعف خود را با دقت جراحی شناسایی کنند.

به نقل از مقاله‌ای که ۹ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، چارچوب INFUSER موفق شده است بهبود نسبی بیش از ۲۰ درصدی در بنچمارک‌های استدلالی Olympiad و SuperGPQA ایجاد کند. این پیشرفت از طریق انتقال از مجموعه‌داده‌های استاتیک به یک برنامه آموزشی تطبیقی و مبتنی بر «امتیاز تأثیر» (Influence Score) به دست آمده است که اجازه می‌دهد مدل‌ها با حداکثری از تکامل خودکار (Self-evolution) پیش بروند.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی داده‌های مصنوعی و تکامل مدل‌ها اشاره کردیم، متدهای فعلی عمدتاً بر داده‌های تولیدشده توسط مدل‌های معلم یا معیار «سختی» تکیه دارند؛ رویکردی که اغلب پیچیدگی ظاهری را به جای پیشرفت واقعی در یادگیری پاداش می‌دهد. تا پیش از ژوئن ۲۰۲۶، اکثر تولیدکننده‌های بدون‌نظارت قادر نبودند تفاوت بین یک مسئله «سخت» و یک مسئله «مفید» را تشخیص دهند.

طبق مستندات این پژوهش، INFUSER از دو نقش متقابل و تکاملی استفاده می‌کند:

تولیدکننده (Generator): سؤالات و پاسخ‌های طلایی را از مستندات بدون ساختار استخراج می‌کند.
حل‌کننده (Solver): از این زوج‌های سؤال-جواب با استفاده از پاداش‌های استاندارد صحت، یاد می‌گیرد.

برای بهینه‌سازی این چرخه، تیم تحقیق متد DuGRPO (Dual-normalized GRPO) را معرفی کردند تا تولیدکننده را بر اساس امتیاز تأثیر تنظیم کند. این امتیاز دقیقاً اندازه‌گیری می‌کند که یک سؤال پیشنهادی چقدر باعث بهبود عملکرد حل‌کننده در توزیع‌های هدف می‌شود. آزمایش‌ها روی مدل Qwen3-8B-Base نشان داد که یک تولیدکننده ۸ میلیاردی تکاملی می‌تواند در تکالیف ریاضی و کدنویسی، از یک تولیدکننده ۳۲ میلیاردی «منجمد» پیشی بگیرد.

این دستاورد نشان‌دهنده چرخش راهبردی از تأمین «داده‌های سخت» به سمت «داده‌های اثرگذار» است. در واقع INFUSER با کمی‌سازی کاربرد هر سؤال، فرآیند خلق بهینه‌ترین برنامه آموزشی را خودکار می‌کند و وابستگی به مجموعه‌داده‌های حجیم و دست‌چین‌شده توسط انسان را کاهش می‌دهد.

گام بعدی شما

پژوهشگران می‌توانند پیاده‌سازی DuGRPO را برای سایر حلقه‌های آموزشی مبتنی بر پاداش بررسی کنند.
توسعه‌دهندگان می‌توانند از کد باز این پروژه برای تست bridging بین مدل‌های پایه و مدل‌های تنظیم‌شده (Instruction-tuned) استفاده کنند.
بررسی کنید که آیا امتیاز تأثیر می‌تواند جایگزینی برای فیلتراسیون دستی داده‌ها در خط لوله‌های آموزش باشد.

اما اثر این روش بر کاهش هزینه‌های محاسباتی در مقیاس‌های بزرگتر هنوز ناشناخته است — به بررسی ما درباره‌ی قوانین مقیاس‌پذیری (Scaling Laws) مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

طبق مستندات این پژوهش، INFUSER از دو نقش متقابل و تکاملی استفاده می‌کند:

تولیدکننده (Generator): سؤالات و پاسخ‌های طلایی را از مستندات بدون ساختار استخراج می‌کند.
حل‌کننده (Solver): از این زوج‌های سؤال-جواب با استفاده از پاداش‌های استاندارد صحت، یاد می‌گیرد.

گام بعدی شما

پژوهشگران می‌توانند پیاده‌سازی DuGRPO را برای سایر حلقه‌های آموزشی مبتنی بر پاداش بررسی کنند.
توسعه‌دهندگان می‌توانند از کد باز این پروژه برای تست bridging بین مدل‌های پایه و مدل‌های تنظیم‌شده (Instruction-tuned) استفاده کنند.
بررسی کنید که آیا امتیاز تأثیر می‌تواند جایگزینی برای فیلتراسیون دستی داده‌ها در خط لوله‌های آموزش باشد.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

INFUSER: جایگزینی «سختی مسئله» با «امتیاز تأثیر» در آموزش مدل‌ها

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

INFUSER: جایگزینی «سختی مسئله» با «امتیاز تأثیر» در آموزش مدل‌ها

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

INFUSER: جایگزینی «سختی مسئله» با «امتیاز تأثیر» در آموزش مدل‌ها

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

INFUSER: جایگزینی «سختی مسئله» با «امتیاز تأثیر» در آموزش مدل‌ها

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران