آیا مدل شما واقعاً میبیند یا فقط بر اساس الگوها حدس میزند؟ اگر تصور میکنید مدلهای متنباز در درک بصری به سطح مدلهای تجاری رسیدهاند، باید با واقعیت تلخ DiffCap-Bench روبرو شوید.
طبق گزارش منتشر شده در ۷ مه ۲۰۲۶ در arxiv.org، یک شکاف عمیق و نگرانکننده میان مدلهای زبانی بزرگ چندوجهی (Multimodal Large Models - MLLMs) تجاری و متنباز در زمینه توضیح تفاوت تصاویر (Image Difference Captioning - IDC) وجود دارد. به نقل از پژوهشگران این پروژه، مدلهای بسته در شناسایی تغییرات ریز بصری، عملکردی بهمراتب برتر دارند و مدلهای متنباز حتی با افزایش تعداد پارامترها، همچنان در استدلالهای پیچیده شکست میخورند.
برای رسیدن به این نتیجه، این بنچمارک از استانداردهای سختگیرانهای استفاده کرده است:
- پوشش ۱۰ دستهبندی مختلف از تفاوتهای بصری برای سنجش پیچیدگی ترکیبی.
- بهکارگیری پروتکل داور مدل زبانی (LLM-as-a-Judge) که بر اساس لیستهای تاییدشده توسط انسان عمل میکند.
- سیستم اعتبارسنجی برای بررسی همبستگی میان عملکرد مدل و کیفیت دادههای تولیدشده برای ویرایش تصویر.
بر اساس مستندات این پژوهش، معیارهای سنتی مانند BLEU و METEOR به دلیل نادیده گرفتن سازگاری معنایی و عدم جریمه کردن توهم (Hallucination)، برای ارزیابی مدلهای مدرن ناکارآمد هستند. همانطور که در تحلیل قبلی ما دربارهی توهمات بصری در مدلهای بازمتن اشاره کردیم، مشکل اصلی نه در کمبود داده، بلکه در نقص ساختاری استدلال است.
این یافتهها نشان میدهد که قوانین مقیاسپذیری (Scaling Laws) در حوزه استدلال بصری به سادگی عمل نمیکنند؛ یعنی افزایش حجم مدل لزوماً به معنای هوشمندتر شدن آن در درک تفاوتها نیست. این موضوع، توسعهدهندگان را مجبور میکند تا به جای تمرکز بر اندازه، بر معماریهای استدلالی متمرکز شوند.
اما این شکست مدلهای متنباز تنها بخشی از یک معمای بزرگتر است؛ اثر این شکاف بر آیندهی ابزارهای ویرایش تصویر را در گزارش بعدی بررسی خواهیم کرد.
گام بعدی شما
- بررسی مستندات DiffCap-Bench برای ارزیابی دقیقتر مدلهای چندوجهی در پروژههای داخلی.
- تمرکز بر پیادهسازی معماریهای استدلالی به جای تکیه صرف بر افزایش پارامترها.
- دنبال کردن پیشرفتهای مدلهای تجاری در زمینه استخراج ویژگیهای تفاضلی.




گفتگو