بهینهسازی ترجیح مستقیم (DPO) شیوه یادگیری مدلهای هوش مصنوعی از بازخورد انسانی را متحول کرده، اما اثربخشی آن به کیفیت دادههای ترجیحی وابسته است. رویکردهای سنتی اغلب به سیگنالهای کلی بر اساس نتیجه یا اختلالات خارج از خط مشی متکی هستند که در tarefas استدلال بصری ظریف ناکافی به نظر میرسند.
پژوهشگران rDPO را توسعه دادهاند؛ چارچوبی نوآورانه برای بهینهسازی ترجیح که معیارهای خاص نمونهای را برای tareas چندوجهی معرفی میکند. به جای استفاده از سیگنالهای ترجیحی عمومی، rDPO صورتهای ارزیابی جزئیاتی به سبک چکلیست تولید میکند که برای هر جفت تصویر-دستورالعمل تنظیم شده و معیارهای ضروری و اختیاری ارزیابی را مشخص میسازد. این رویکرد امکان ارزیابی ظریفتر بازخورد برای پاسخها در مدلهای سیاست مختلف را فراهم میکند.
روش مبتنی بر صورتبندی بهبودهای عملکرد چشمگیری نشان میدهد. در معیارهای عمومی مدلسازی پاداش، prompts مبتنی بر صورتبندی مدل داور 30B-A3B را بهطور چشمگیری تقویت میکند و به قابلیتهای GPT-5.4 نزدیک میشود. به همین ترتیب، در معیارهای پاییندست، فیلترینگ مبتنی بر صورتبندی عملکرد میانگین ماکرو را به ۸۲.۶۹ ارتقا میدهد که بهطور قابل توجهی از فیلترینگ مبتنی بر نتیجه (۷۵.۸۲) با خط پایه اولیه ۸۱.۱۴ برتری دارد. ارزیابیهای جامع معیارها نشان میدهد rDPO به ۶۱.۰۱ دست مییابد که از خط پایه محدود به سبک (۵۲.۳۶) فراتر رفته و از مدل پایه در ۵۹.۴۸ پیشی میگیرد.
این نتایج بینشی حیاتی را برجسته میکنند: بهینهسازی ترجیح بصری زمانی بسیار مؤثرتر میشود که ساخت دادههای روی خط مشی با بازخورد سطح معیار خاص نمونهای ترکیب شود. این چارچوب امکان بهبودهای دقیق و هدفمند در استدلال چندوجهی را فراهم میکند و ارزیابی را به جای تکیه بر قضاوتهای کلی و عمومی، به معیارهای ریز و متنخص شکسته و تجزیه میکند.

گفتگو