گروهی از پژوهشگران روش پرامپتاکو (PromptEcho) را برای ساخت سیگنالهای پاداش در یادگیری تقویتی متنبهتصویر معرفی کردهاند. این روش که در آوریل ۲۰۲۶ در آرکایو منتشر شده، یکی از موانع اصلی آموزش مدلهای متنبهتصویر را برطرف میکند: دستیابی به سیگنالهای بازخورد باکیفیت بالا.
{{img:0}}
روشهای موجود، معاملات مهمی دارند. امتیاز کلیپ (CLIP Score) ارزیابی خودکار فراهم میکند اما دقت لازم برای سنجش همترازی ظریف را ندارد. مدلهای پاداش مبتنی بر ویالام (VLM) مانند ریوارددنس (RewardDance) به دادههای ترجیحی حاشیهنویسیشده نیاز دارند. پرامپتاکو این محدودیتها را دور میزند.
این روش با محاسبه افت متقاطع آنتروپی در سطح توکن میان خروجی مدل یخزده و پرامپت اصلی کار میکند. دانش همترازی تصویر-متن که در پیشآموزش مدل بینایی-زبان کدگذاری شده، مستقیماً استخراج میشود. این رویکرد قطعی و کارآمد است.
پژوهشگران برای ارزیابی دقیق توانایی پیروی از پرامپت، معیار دنسالاینبنچ (DenseAlignBench) را توسعه دادهاند. آزمایش روی دو مدل پیشرفته—زد-ایمیج (Z-Image) و کوئنایمیج-۲۵۱۲ (QwenImage-2512)—بهبود نرخ پیروزی خالص ۲۶٫۸ و ۱۶٫۲ درصدی نشان داد. این روش در معیارهای دیگر از جمله جنایوال (GenEval)، دیپیجی-بنچ (DPG-Bench) و تیآیآیافبنچ (TIIFBench) نیز سازگار بود.
مطالعات حذفی تأیید کردند که پرامپتاکو از امتیازدهی مبتنی بر استنتاج با همان مدل پایه بهتر عمل میکند. کیفیت پاداش با اندازه مدل بینایی-زبان مقیاسپذیر است.
پژوهشگران قصد انتشار مدلها و معیار دنسالاینبنچ را بهعنوان منابع متنباز دارند. با پیشرفت مدلهای بینایی-زبان متنباز، اثربخشی این روش نیز افزایش خواهد یافت.

گفتگو