اگر تصور میکنید مدلهای هوش مصنوعی چندوجهی اکنون قادرند در گفتگوهای طولانی و پیچیده با تصاویر سازگار بمانند، باید با واقعیتهای عددی IMUG-Bench روبرو شوید. این دادهها ثابت میکنند که حتی پیشرفتهترین مدلها در مواجهه با تعاملات پویا، بهسرعت دچار لغزش میشوند.
مدلهای چندوجهی یکپارچه (Unified Multimodal Models یا UMM) با هدف ادغام درک و تولید در یک چارچوب واحد طراحی شدهاند. با این حال، طبق گزارش منتشر شده در arxiv.org در تاریخ ۹ ژوئن ۲۰۲۶، شکاف عمیقی میان نمرات آزمایشگاهی و عملکرد واقعی این مدلها در محیطهای عملیاتی وجود دارد. همانطور که در تحلیل قبلی ما دربارهی مدلهای استدلالی اشاره کردیم، چالش اصلی اکوسیستم اکنون عبور از پاسخهای تکمرحلهای به سمت استدلالهای زنجیرهای و پایدار است.
به نقل از مستندات IMUG-Bench، این چارچوب ارزیابی با تحلیل ۱۲,۰۳۴ نوبت تعامل در ۳,۱۱۳ نمونه، مدلها را در سه دستهبندی سختگیرانه میسنجد:
- فضایی استاتیک (Static Spatial)
- علّی زمانی (Temporal Causal)
- ترکیبی (Hybrid)
پژوهشگران در این مطالعه یک «سوگیری مواجهه» (Exposure Bias) شدید در بخش تولید شناسایی کردند؛ به این معنا که هرچه گفتگو پیش میرود، احتمال خطای مدل افزایش مییابد. برای حل این معضل، تیم تحقیق استراتژیهای مقیاسپذیری در زمان استنتاج را آزمایش کردند و دریافتند که زنجیره تفکر (Chain-of-Thought)، خود-تأیید (Self-Verification) و نمونهبرداری بهترین از N (Best-of-N Sampling) بهطور مؤثری دقت مدل را بالا میبرند.
این یافتهها فرضیه قدیمی مبنی بر اینکه شکستهای مدلهای UMM صرفاً به دلیل محدودیتهای معماری است را به چالش میکشد. تحلیل دادهها نشان میدهد که بسیاری از این خطاها در واقع مشکل «جستوجو و تأیید» هستند، نه لزوماً نقص در ساختار شبکه عصبی.
گام بعدی شما
- ارزیابی مدلهای مورد استفاده در پروژههای خود با متدولوژی IMUG-Bench برای شناسایی نقاط کور در گفتگوهای چندمرحلهای.
- پیادهسازی لایههای تأییدیه (Verification) در خروجیهای مدلهای چندوجهی برای کاهش اثر سوگیری مواجهه.
- بررسی امکان تقطیر (Distillation) نتایج Best-of-N در وزنهای مدل برای کاهش تأخیر استنتاج.
اما آیا میتوان این دقت استثنایی را بدون افزایش هزینههای محاسباتی به مدل منتقل کرد؟ پاسخ این پرسش در تحلیل ما دربارهی روشهای بهینهسازی هزینهی استنتاج نهفته است.
گفتگو