Reasoning Arena: غلبه بر مشکل پاداش‌های تخت در آموزش مدل‌های استدلالی

پاداش‌های باینری «درست یا غلط» دیگر برای ارتقای استدلال مدل‌ها کافی نیستند. اگر می‌خواهید سقف توانایی مدل خود را در مسائل پیچیده جابه‌جا کنید، باید از تمرکز بر پاسخ نهایی فاصله بگیرید و به کیفیت «مسیر رسیدن به پاسخ» توجه کنید.

در آموزش مدل‌های زبانی با پاداش‌های تأییدپذیر (RLVR)، زمانی که چندین مسیر مختلف همگی به پاسخ درست می‌رسند، مدل هیچ سیگنالی برای تشخیص مسیر بهینه‌تر دریافت نمی‌کند؛ وضعیتی که به «پاداش‌های تخت» (Flat Rewards) معروف است. Reasoning Arena این بن‌بست را با اجبار زنجیره‌های تفکر به رقابت‌های رودررو حل می‌کند.

همان‌طور که در تحلیل‌های پیشین ما درباره امنیت و استدلال مدل‌های بازمتن اشاره کردیم، بهره‌وری در آموزش مدل‌های استدلالی مستقیماً با کیفیت داده‌های تقویتی در ارتباط است. به نقل از گزارش منتشر شده در ۹ ژوئن ۲۰۲۶ در arxiv.org، این چارچوب به جای استفاده از پاسخ‌های صفر و یک، رتبه‌بندی نسبی مسیرها را به عنوان سیگنال گرادیان استخراج می‌کند.

برای جلوگیری از هزینه‌های سرسام‌آور محاسباتی (Compute) در مقایسات زوجی، این سیستم از دو سازوکار کلیدی استفاده می‌کند:

ردیفه‌های لنگر (Anchor Traces): هر زنجیره تفکر جدید با مجموعه‌ای کوچک و پویا از مسیرهای قبلی مقایسه می‌شود.
مدل‌سازی بردلی-تری (Bradley-Terry Modeling): برای ایجاد رتبه‌بندی‌های مقیاس‌پذیر، یک مدل آماری بر روی گراف مقایساتی ناقص برازش می‌شود.

بر اساس مستندات این پژوهش، این رویکرد سرعت آموزش را بین ۲۷٪ تا ۴۱٪ افزایش داده و حجم محاسبات تولید را تقریباً ۵۰٪ کاهش داده است. نتیجه‌ی نهایی، جهش ۷.۶ درصدی در بنچمارک‌های سطح رقابتی ریاضی و برنامه‌نویسی است.

تحلیل فنی این داده‌ها نشان می‌دهد که بهینه‌سازی استدلال نباید در نقطه‌ی پایان متوقف شود؛ چرا که کیفیت نسبی مسیر، سیگنالی حیاتی است که پیش از این در اکثر مدل‌های هوش مصنوعی زاینده (Generative AI) دور ریخته می‌شد.

گام بعدی شما

دنبال کنید که چگونه منطق رتبه‌بندی نسبی در نسل بعدی مدل‌های استدلالی (Reasoning Model) با وزن‌های باز ادغام می‌شود.
اگر روی RLVR کار می‌کنید، جایگزینی پاداش‌های مطلق با تورنمنتهای کوچک را در مجموعه‌های داده‌ی خود آزمایش کنید.
بررسی کنید که آیا این متد در دامنه‌های غیر-تأییدپذیر (بدون پاسخ قطعی) نیز قابل تعمیم است یا خیر.

اما این بهینه‌سازی نرم‌افزاری تنها بخشی از معادله است؛ برای درک اینکه سخت‌افزارها چگونه این حجم از استنتاج را مدیریت می‌کنند، تحلیل ما درباره تراشه‌های Blackwell را بخوانید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

ردیفه‌های لنگر (Anchor Traces): هر زنجیره تفکر جدید با مجموعه‌ای کوچک و پویا از مسیرهای قبلی مقایسه می‌شود.
مدل‌سازی بردلی-تری (Bradley-Terry Modeling): برای ایجاد رتبه‌بندی‌های مقیاس‌پذیر، یک مدل آماری بر روی گراف مقایساتی ناقص برازش می‌شود.

گام بعدی شما

دنبال کنید که چگونه منطق رتبه‌بندی نسبی در نسل بعدی مدل‌های استدلالی (Reasoning Model) با وزن‌های باز ادغام می‌شود.
اگر روی RLVR کار می‌کنید، جایگزینی پاداش‌های مطلق با تورنمنتهای کوچک را در مجموعه‌های داده‌ی خود آزمایش کنید.
بررسی کنید که آیا این متد در دامنه‌های غیر-تأییدپذیر (بدون پاسخ قطعی) نیز قابل تعمیم است یا خیر.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Reasoning Arena: غلبه بر مشکل پاداش‌های تخت در آموزش مدل‌های استدلالی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Reasoning Arena: غلبه بر مشکل پاداش‌های تخت در آموزش مدل‌های استدلالی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Reasoning Arena: غلبه بر مشکل پاداش‌های تخت در آموزش مدل‌های استدلالی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Reasoning Arena: غلبه بر مشکل پاداش‌های تخت در آموزش مدل‌های استدلالی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران