پاداشهای باینری «درست یا غلط» دیگر برای ارتقای استدلال مدلها کافی نیستند. اگر میخواهید سقف توانایی مدل خود را در مسائل پیچیده جابهجا کنید، باید از تمرکز بر پاسخ نهایی فاصله بگیرید و به کیفیت «مسیر رسیدن به پاسخ» توجه کنید.
در آموزش مدلهای زبانی با پاداشهای تأییدپذیر (RLVR)، زمانی که چندین مسیر مختلف همگی به پاسخ درست میرسند، مدل هیچ سیگنالی برای تشخیص مسیر بهینهتر دریافت نمیکند؛ وضعیتی که به «پاداشهای تخت» (Flat Rewards) معروف است. Reasoning Arena این بنبست را با اجبار زنجیرههای تفکر به رقابتهای رودررو حل میکند.
همانطور که در تحلیلهای پیشین ما درباره امنیت و استدلال مدلهای بازمتن اشاره کردیم، بهرهوری در آموزش مدلهای استدلالی مستقیماً با کیفیت دادههای تقویتی در ارتباط است. به نقل از گزارش منتشر شده در ۹ ژوئن ۲۰۲۶ در arxiv.org، این چارچوب به جای استفاده از پاسخهای صفر و یک، رتبهبندی نسبی مسیرها را به عنوان سیگنال گرادیان استخراج میکند.
برای جلوگیری از هزینههای سرسامآور محاسباتی (Compute) در مقایسات زوجی، این سیستم از دو سازوکار کلیدی استفاده میکند:
- ردیفههای لنگر (Anchor Traces): هر زنجیره تفکر جدید با مجموعهای کوچک و پویا از مسیرهای قبلی مقایسه میشود.
- مدلسازی بردلی-تری (Bradley-Terry Modeling): برای ایجاد رتبهبندیهای مقیاسپذیر، یک مدل آماری بر روی گراف مقایساتی ناقص برازش میشود.
بر اساس مستندات این پژوهش، این رویکرد سرعت آموزش را بین ۲۷٪ تا ۴۱٪ افزایش داده و حجم محاسبات تولید را تقریباً ۵۰٪ کاهش داده است. نتیجهی نهایی، جهش ۷.۶ درصدی در بنچمارکهای سطح رقابتی ریاضی و برنامهنویسی است.
تحلیل فنی این دادهها نشان میدهد که بهینهسازی استدلال نباید در نقطهی پایان متوقف شود؛ چرا که کیفیت نسبی مسیر، سیگنالی حیاتی است که پیش از این در اکثر مدلهای هوش مصنوعی زاینده (Generative AI) دور ریخته میشد.
گام بعدی شما
- دنبال کنید که چگونه منطق رتبهبندی نسبی در نسل بعدی مدلهای استدلالی (Reasoning Model) با وزنهای باز ادغام میشود.
- اگر روی RLVR کار میکنید، جایگزینی پاداشهای مطلق با تورنمنتهای کوچک را در مجموعههای دادهی خود آزمایش کنید.
- بررسی کنید که آیا این متد در دامنههای غیر-تأییدپذیر (بدون پاسخ قطعی) نیز قابل تعمیم است یا خیر.
اما این بهینهسازی نرمافزاری تنها بخشی از معادله است؛ برای درک اینکه سختافزارها چگونه این حجم از استنتاج را مدیریت میکنند، تحلیل ما درباره تراشههای Blackwell را بخوانید.
گفتگو