RePO: جایگزینی بیشینه‌سازی پاداش با کمینه‌سازی حسرت در همراستاسازی LLM‌ها

بیشینه‌سازی پاداش، استاندارد فعلی همراستاسازی (Alignment) مدل‌هاست، اما این رویکرد یک نقص بنیادین دارد: نادیده گرفتن نحوه ادراک واقعی انسان از ارزش.

اگر تصور می‌کنید مدل‌های زبانی تنها با پاداش‌های مثبت یاد می‌گیرند، در اشتباهید. طبق یافته‌های جدید، مدل‌ها زمانی بهتر عمل می‌کنند که به جای جست‌وجوی «بهترین پاسخ»، سعی کنند «کمترین میزان حسرت» را تجربه کنند.

اکثر گردش‌کارهای یادگیری تقویت‌شده از بازخورد انسانی (RLHF) بر یک سیگنال پاداش عددی تکیه می‌کنند تا مدل را به سمت پاسخ «درست» هل دهند. با این حال، انسان‌ها معمولاً کیفیت یک خروجی را نه بر اساس ارزش مطلق، بلکه بر اساس اینکه آن پاسخ چقدر با جایگزین بهترش فاصله دارد، می‌سنجند؛ شکاف روان‌شناختی‌ای که به عنوان حسرت شناخته می‌شود. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی محدودیت‌های RLHF اشاره کردیم، این نادیده‌انگاری در وظایف استدلالی شدید است، جایی که یک خطای منطقی کوچک، کل راه‌حل را زیربهین می‌کند.

در ۹ ژوئن ۲۰۲۶، چارچوب RePO (Regret-based Preference Optimization) منتشر شد که یادگیری ترجیحات را به عنوان ارزیابی‌های شرطی از زیربهینگی (Suboptimality) نسبی بازتعریف می‌کند. به نقل از مستندات منتشر شده در arXiv.org، این سامانه بر محورهای زیر تمرکز دارد:

عبور از مطلوبیت مستقل از نتیجه برای ثبت پیش‌بینی‌های آینده‌نگرانه از نتایج.
ادغام مقایسه‌های متقابل (Counterfactual) با رفتارهای جایگزین.
اعتبارسنجی عملکرد در بنچ‌مارک‌های استدلال ریاضی و مجموعه‌داده‌های ترجیحات انسانی. این تمرکز بر استدلال ریاضی، مکمل رویکردهایی مانند چارچوب DiScO است که تلاش می‌کند با متنوع‌سازی طرحواره‌های تفکر، کیفیت استدلال‌های ریاضی را ارتقا دهد.

نویسندگان گزارش داده‌اند که این روش منجر به بهبودهای مستمر در عملکرد شده است، هرچند درصد دقیق این ارتقاء نسبت به روش‌های پایه RLHF افشا نشده است.

این رویکرد این فرض قدیمی را که یک تابع پاداش ایستا (Static) برای استدلال‌های پیچیده کافی است، می‌شکند. با مدل‌سازی «حسرت»، توسعه‌دهندگان می‌توانند عامل‌هایی بسازند که در برابر دست‌کاری پاداش (Reward Hacking) مقاوم‌ترند و تفاوت بین مسیرهای «تقریباً درست» و «کاملاً غلط» را بهتر درک می‌کنند. این نشان می‌دهد مسیر رسیدن به استدلال در سطح انسانی، در درک هزینه اشتباهات نهفته است، نه فقط پاداش موفقیت.

گام بعدی شما

اگر بر روی همراستاسازی مدل‌های تخصصی کار می‌کنید، متدولوژی RePO را برای کاهش نرخ توهم در استدلال‌های ریاضی بررسی کنید.
پیاده‌سازی فنی این چارچوب را از طریق مخزن arXiv.org مطالعه کنید.
بررسی کنید که آیا کمینه‌سازی حسرت در وظایف خلاقانه (که اندازه گیری آن سخت‌تر است) نیز کاربرد دارد یا خیر.

اما تأثیر این تغییر در مصرف منابع محاسباتی و هزینه استنتاج همچنان مبهم است — به تحلیل ما درباره‌ی بهینه‌سازی هزینه‌ی استنتاج مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

عبور از مطلوبیت مستقل از نتیجه برای ثبت پیش‌بینی‌های آینده‌نگرانه از نتایج.
ادغام مقایسه‌های متقابل (Counterfactual) با رفتارهای جایگزین.
اعتبارسنجی عملکرد در بنچ‌مارک‌های استدلال ریاضی و مجموعه‌داده‌های ترجیحات انسانی. این تمرکز بر استدلال ریاضی، مکمل رویکردهایی مانند چارچوب DiScO است که تلاش می‌کند با متنوع‌سازی طرحواره‌های تفکر، کیفیت استدلال‌های ریاضی را ارتقا دهد.

گام بعدی شما

اگر بر روی همراستاسازی مدل‌های تخصصی کار می‌کنید، متدولوژی RePO را برای کاهش نرخ توهم در استدلال‌های ریاضی بررسی کنید.
پیاده‌سازی فنی این چارچوب را از طریق مخزن arXiv.org مطالعه کنید.
بررسی کنید که آیا کمینه‌سازی حسرت در وظایف خلاقانه (که اندازه گیری آن سخت‌تر است) نیز کاربرد دارد یا خیر.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

RePO: جایگزینی بیشینه‌سازی پاداش با کمینه‌سازی حسرت در همراستاسازی LLM‌ها

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

RePO: جایگزینی بیشینه‌سازی پاداش با کمینه‌سازی حسرت در همراستاسازی LLM‌ها

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

RePO: جایگزینی بیشینه‌سازی پاداش با کمینه‌سازی حسرت در همراستاسازی LLM‌ها

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

RePO: جایگزینی بیشینه‌سازی پاداش با کمینه‌سازی حسرت در همراستاسازی LLM‌ها

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران