افشای شکاف استدلالی؛ مدل‌های متن‌باز در برابر آزمون DiffCap-Bench شکست خوردند

آیا مدل شما واقعاً می‌بیند یا فقط بر اساس الگوها حدس می‌زند؟ اگر تصور می‌کنید مدل‌های متن‌باز در درک بصری به سطح مدل‌های تجاری رسیده‌اند، باید با واقعیت تلخ DiffCap-Bench روبرو شوید.

طبق گزارش منتشر شده در ۷ مه ۲۰۲۶ در arxiv.org، یک شکاف عمیق و نگران‌کننده میان مدل‌های زبانی بزرگ چندوجهی (Multimodal Large Models - MLLMs) تجاری و متن‌باز در زمینه توضیح تفاوت تصاویر (Image Difference Captioning - IDC) وجود دارد. به نقل از پژوهشگران این پروژه، مدل‌های بسته در شناسایی تغییرات ریز بصری، عملکردی به‌مراتب برتر دارند و مدل‌های متن‌باز حتی با افزایش تعداد پارامترها، همچنان در استدلال‌های پیچیده شکست می‌خورند.

برای رسیدن به این نتیجه، این بنچ‌مارک از استانداردهای سخت‌گیرانه‌ای استفاده کرده است:

پوشش ۱۰ دسته‌بندی مختلف از تفاوت‌های بصری برای سنجش پیچیدگی ترکیبی.
به‌کارگیری پروتکل داور مدل زبانی (LLM-as-a-Judge) که بر اساس لیست‌های تاییدشده توسط انسان عمل می‌کند.
سیستم اعتبارسنجی برای بررسی همبستگی میان عملکرد مدل و کیفیت داده‌های تولیدشده برای ویرایش تصویر.

بر اساس مستندات این پژوهش، معیارهای سنتی مانند BLEU و METEOR به دلیل نادیده گرفتن سازگاری معنایی و عدم جریمه کردن توهم (Hallucination)، برای ارزیابی مدل‌های مدرن ناکارآمد هستند. همان‌طور که در تحلیل قبلی ما درباره‌ی توهمات بصری در مدل‌های بازمتن اشاره کردیم، مشکل اصلی نه در کمبود داده، بلکه در نقص ساختاری استدلال است.

این یافته‌ها نشان می‌دهد که قوانین مقیاس‌پذیری (Scaling Laws) در حوزه استدلال بصری به سادگی عمل نمی‌کنند؛ یعنی افزایش حجم مدل لزوماً به معنای هوشمندتر شدن آن در درک تفاوت‌ها نیست. این موضوع، توسعه‌دهندگان را مجبور می‌کند تا به جای تمرکز بر اندازه، بر معماری‌های استدلالی متمرکز شوند.

اما این شکست مدل‌های متن‌باز تنها بخشی از یک معمای بزرگ‌تر است؛ اثر این شکاف بر آینده‌ی ابزارهای ویرایش تصویر را در گزارش بعدی بررسی خواهیم کرد.

گام بعدی شما

بررسی مستندات DiffCap-Bench برای ارزیابی دقیق‌تر مدل‌های چندوجهی در پروژه‌های داخلی.
تمرکز بر پیاده‌سازی معماری‌های استدلالی به جای تکیه صرف بر افزایش پارامترها.
دنبال کردن پیشرفت‌های مدل‌های تجاری در زمینه استخراج ویژگی‌های تفاضلی.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

برای رسیدن به این نتیجه، این بنچ‌مارک از استانداردهای سخت‌گیرانه‌ای استفاده کرده است:

پوشش ۱۰ دسته‌بندی مختلف از تفاوت‌های بصری برای سنجش پیچیدگی ترکیبی.
به‌کارگیری پروتکل داور مدل زبانی (LLM-as-a-Judge) که بر اساس لیست‌های تاییدشده توسط انسان عمل می‌کند.
سیستم اعتبارسنجی برای بررسی همبستگی میان عملکرد مدل و کیفیت داده‌های تولیدشده برای ویرایش تصویر.

گام بعدی شما

بررسی مستندات DiffCap-Bench برای ارزیابی دقیق‌تر مدل‌های چندوجهی در پروژه‌های داخلی.
تمرکز بر پیاده‌سازی معماری‌های استدلالی به جای تکیه صرف بر افزایش پارامترها.
دنبال کردن پیشرفت‌های مدل‌های تجاری در زمینه استخراج ویژگی‌های تفاضلی.

افشای شکاف استدلالی؛ مدل‌های متن‌باز در برابر آزمون DiffCap-Bench شکست خوردند

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

افشای شکاف استدلالی؛ مدل‌های متن‌باز در برابر آزمون DiffCap-Bench شکست خوردند

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

افشای شکاف استدلالی؛ مدل‌های متن‌باز در برابر آزمون DiffCap-Bench شکست خوردند

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

افشای شکاف استدلالی؛ مدل‌های متن‌باز در برابر آزمون DiffCap-Bench شکست خوردند

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران