چارچوب پژوهشی جدیدی به نام RationalRewards نحوه عملکرد مدلهای پاداش را در وظایف تولید تصویر متحول کرده است. بیشتر مدلهای پاداش موجود، قضاوتهای پیچیده انسانی را به یک نمره واحد تقلیل میدهند و در نتیجه زمینه استدلالی ارزشمندی را از دست میدهند. RationalRewards این محدودیت را با آموزش مدلهای پاداش برای تولید نقدهای صریح و چندبُعدی پیش از ایجاد نمره برطرف کرده است. این رویکرد، ارزیابان منفعل را به ابزارهای فعال بهینهسازی تبدیل میکند.
{{img:0}}
این چارچوب تولیدکنندههای تصویر را به دو شیوه مکمل بهبود میبخشد. در زمان آموزش، استدلالهای ساختاریافته پاداشهای تفسیرپذیر و دقیق را برای یادگیری تقویتی فراهم میکنند و امکان سیگنالهای بازخورد ظریفتری را مهیا میسازند. در زمان آزمایش، حلقه «تولید-نقد-اصلاح» نقدها را به بازنویسیهای هدفمند تبدیل میکند که بدون نیاز به بهروزرسانی پارامترها، کیفیت خروجیها را ارتقا میدهد.
{{img:1}}
برای آموزش مدلهای پاداش بدون نیاز به حاشیهنویسی استدلالی پرهزینه، پژوهشگران چارچوبی به نام PARROT را معرفی کردهاند. این چارچوب اصولی از دادههای ترجیحی موجود، استدلالهای باکیفیت را از طریق تولید لنگرگاهی، فیلتر سازگاری و تکنیکهای تقطیر بازیابی میکند.
مدل RationalRewards با ۸ میلیارد پارامتر، در میان مدلهای پاداش متنباز به بالاترین دقت در پیشبینی ترجیحات دست یافته و عملکردی رقابتی با Gemini-2.5-Pro ارائه میدهد، در حالی که تنها بخش کوچکی از دادههای آموزشی را مصرف میکند. هنگامی که به عنوان سیگنال پاداش RL به کار میرود، بهطور مداوم تولیدکنندههای متنبهتصویر و ویرایش تصویر را فراتر از جایگزینهای اسکالر بهبود میدهد.
نکته قابل توجه اینکه حلقه نقد و اصلاح در زمان آزمایش، در چندین معیار با تنظیم دقیق مبتنی بر RL برابری یا حتی پیشی میگیرد. این یافته نشان میدهد که استدلال ساختاریافته میتواند قابلیتهای نهفته در تولیدکنندههای موجود را آزاد کند که تبلیغات فرعی بهینه، از آنها بهرهبرداری نمیکردند. این پژوهش نشان میدهد که آموزش مدلها برای استدلال درباره کیفیت پیش از امتیازدهی، پتانسیل بهینهسازیای را آزاد میکند که پیشتر از طریق رویکردهای پاداش اسکالر سنتی غیرقابل دسترسی بود.

گفتگو