بیشینهسازی پاداش، استاندارد فعلی همراستاسازی (Alignment) مدلهاست، اما این رویکرد یک نقص بنیادین دارد: نادیده گرفتن نحوه ادراک واقعی انسان از ارزش.
اگر تصور میکنید مدلهای زبانی تنها با پاداشهای مثبت یاد میگیرند، در اشتباهید. طبق یافتههای جدید، مدلها زمانی بهتر عمل میکنند که به جای جستوجوی «بهترین پاسخ»، سعی کنند «کمترین میزان حسرت» را تجربه کنند.
اکثر گردشکارهای یادگیری تقویتشده از بازخورد انسانی (RLHF) بر یک سیگنال پاداش عددی تکیه میکنند تا مدل را به سمت پاسخ «درست» هل دهند. با این حال، انسانها معمولاً کیفیت یک خروجی را نه بر اساس ارزش مطلق، بلکه بر اساس اینکه آن پاسخ چقدر با جایگزین بهترش فاصله دارد، میسنجند؛ شکاف روانشناختیای که به عنوان حسرت شناخته میشود. همانطور که در تحلیلهای پیشین ما دربارهی محدودیتهای RLHF اشاره کردیم، این نادیدهانگاری در وظایف استدلالی شدید است، جایی که یک خطای منطقی کوچک، کل راهحل را زیربهین میکند.
در ۹ ژوئن ۲۰۲۶، چارچوب RePO (Regret-based Preference Optimization) منتشر شد که یادگیری ترجیحات را به عنوان ارزیابیهای شرطی از زیربهینگی (Suboptimality) نسبی بازتعریف میکند. به نقل از مستندات منتشر شده در arXiv.org، این سامانه بر محورهای زیر تمرکز دارد:
- عبور از مطلوبیت مستقل از نتیجه برای ثبت پیشبینیهای آیندهنگرانه از نتایج.
- ادغام مقایسههای متقابل (Counterfactual) با رفتارهای جایگزین.
- اعتبارسنجی عملکرد در بنچمارکهای استدلال ریاضی و مجموعهدادههای ترجیحات انسانی. این تمرکز بر استدلال ریاضی، مکمل رویکردهایی مانند چارچوب DiScO است که تلاش میکند با متنوعسازی طرحوارههای تفکر، کیفیت استدلالهای ریاضی را ارتقا دهد.
نویسندگان گزارش دادهاند که این روش منجر به بهبودهای مستمر در عملکرد شده است، هرچند درصد دقیق این ارتقاء نسبت به روشهای پایه RLHF افشا نشده است.
این رویکرد این فرض قدیمی را که یک تابع پاداش ایستا (Static) برای استدلالهای پیچیده کافی است، میشکند. با مدلسازی «حسرت»، توسعهدهندگان میتوانند عاملهایی بسازند که در برابر دستکاری پاداش (Reward Hacking) مقاومترند و تفاوت بین مسیرهای «تقریباً درست» و «کاملاً غلط» را بهتر درک میکنند. این نشان میدهد مسیر رسیدن به استدلال در سطح انسانی، در درک هزینه اشتباهات نهفته است، نه فقط پاداش موفقیت.
گام بعدی شما
- اگر بر روی همراستاسازی مدلهای تخصصی کار میکنید، متدولوژی RePO را برای کاهش نرخ توهم در استدلالهای ریاضی بررسی کنید.
- پیادهسازی فنی این چارچوب را از طریق مخزن arXiv.org مطالعه کنید.
- بررسی کنید که آیا کمینهسازی حسرت در وظایف خلاقانه (که اندازه گیری آن سختتر است) نیز کاربرد دارد یا خیر.
اما تأثیر این تغییر در مصرف منابع محاسباتی و هزینه استنتاج همچنان مبهم است — به تحلیل ما دربارهی بهینهسازی هزینهی استنتاج مراجعه کنید.
گفتگو