پاداش‌های عقلانی: مقیاس‌بندی تولید بصری با پاداش‌های استدلالی

چارچوب پژوهشی جدیدی به نام RationalRewards نحوه عملکرد مدل‌های پاداش را در وظایف تولید تصویر متحول کرده است. بیشتر مدل‌های پاداش موجود، قضاوت‌های پیچیده انسانی را به یک نمره واحد تقلیل می‌دهند و در نتیجه زمینه استدلالی ارزشمندی را از دست می‌دهند. RationalRewards این محدودیت را با آموزش مدل‌های پاداش برای تولید نقدهای صریح و چندبُعدی پیش از ایجاد نمره برطرف کرده است. این رویکرد، ارزیابان منفعل را به ابزارهای فعال بهینه‌سازی تبدیل می‌کند.

این چارچوب تولیدکننده‌های تصویر را به دو شیوه مکمل بهبود می‌بخشد. در زمان آموزش، استدلال‌های ساختاریافته پاداش‌های تفسیرپذیر و دقیق را برای یادگیری تقویتی فراهم می‌کنند و امکان سیگنال‌های بازخورد ظریف‌تری را مهیا می‌سازند. در زمان آزمایش، حلقه «تولید-نقد-اصلاح» نقدها را به بازنویسی‌های هدفمند تبدیل می‌کند که بدون نیاز به به‌روزرسانی پارامترها، کیفیت خروجی‌ها را ارتقا می‌دهد.

برای آموزش مدل‌های پاداش بدون نیاز به حاشیه‌نویسی استدلالی پرهزینه، پژوهشگران چارچوبی به نام PARROT را معرفی کرده‌اند. این چارچوب اصولی از داده‌های ترجیحی موجود، استدلال‌های باکیفیت را از طریق تولید لنگرگاهی، فیلتر سازگاری و تکنیک‌های تقطیر بازیابی می‌کند.

مدل RationalRewards با ۸ میلیارد پارامتر، در میان مدل‌های پاداش متن‌باز به بالاترین دقت در پیش‌بینی ترجیحات دست یافته و عملکردی رقابتی با Gemini-2.5-Pro ارائه می‌دهد، در حالی که تنها بخش کوچکی از داده‌های آموزشی را مصرف می‌کند. هنگامی که به عنوان سیگنال پاداش RL به کار می‌رود، به‌طور مداوم تولیدکننده‌های متن‌به‌تصویر و ویرایش تصویر را فراتر از جایگزین‌های اسکالر بهبود می‌دهد.

نکته قابل توجه اینکه حلقه نقد و اصلاح در زمان آزمایش، در چندین معیار با تنظیم دقیق مبتنی بر RL برابری یا حتی پیشی می‌گیرد. این یافته نشان می‌دهد که استدلال ساختاریافته می‌تواند قابلیت‌های نهفته در تولیدکننده‌های موجود را آزاد کند که تبلیغات فرعی بهینه، از آن‌ها بهره‌برداری نمی‌کردند. این پژوهش نشان می‌دهد که آموزش مدل‌ها برای استدلال درباره کیفیت پیش از امتیازدهی، پتانسیل بهینه‌سازی‌ای را آزاد می‌کند که پیش‌تر از طریق رویکردهای پاداش اسکالر سنتی غیرقابل دسترسی بود.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پاداش‌های عقلانی: مقیاس‌بندی تولید بصری با پاداش‌های استدلالی

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پاداش‌های عقلانی: مقیاس‌بندی تولید بصری با پاداش‌های استدلالی

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پاداش‌های عقلانی: مقیاس‌بندی تولید بصری با پاداش‌های استدلالی

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پاداش‌های عقلانی: مقیاس‌بندی تولید بصری با پاداش‌های استدلالی

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

راهنمای فارسی هوش مصنوعی — با نگاه به ایران