اگر تصور میکنید برای درک دقیق یک تصویر، توکنهای بصری باید تمام مسیر لایههای یک مدل زبانی را طی کنند، در اشتباهید. یافتههای جدید نشان میدهد که بخش عظیمی از محاسبات در مدلهای چندوجهی، صرفاً تکرار اطلاعاتی است که در لایههای میانی تثبیت شدهاند.
در معماریهای فعلی، مدلها با متن و تصویر به صورت متقارن برخورد میکنند. همانطور که در تحلیل قبلی ما دربارهی DRoRAE و بهبود کیفیت تصاویر اشاره کردیم، همواره این پرسش بود که آیا هر دو مودالیته به عمق پردازشی یکسانی نیاز دارند یا خیر.
به نقل از پژوهشی که در ۹ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، توکنهای بصری در مدلهای زبانی بزرگ چندوجهی (Multimodal Large Language Models - MLLM) مدتها پیش از رسیدن به لایهی نهایی، اشباع میشوند. پژوهشگران با تحلیل مدل LLaVA-1.5 دریافتند که میزان توجه (Attention) متن به تصویر از ۰.۶۸ در لایهی صفر، در لایهی چهارم به ۰.۰۷ سقوط کرده و پس از لایهی ۱۸ در سطح ۰.۰۴ تثبیت میشود.
به همین دلیل، چارچوب مسیریابی توکنهای بصری دوگانه (Dual-Path Vision Token Routing - DPVR) و نسخهٔ تکاملیافتهی آن یعنی ادغام لایههای انتهایی (Late-Layer Fusion - DPVR-LF) معرفی شدند. این سازوکار شامل موارد زیر است:
- هدایت توکن (Token)های بصری در نقطه اشباع به یک شاخهی جانبی قابل آموزش.
- اجرای یک گذر مستقیم (Forward Pass) متنی در ۱۳ لایه که موقعیتهای تصویری را نادیده میگیرد.
- ادغام مجدد جریانهای بصری و متنی تنها در لایهی نهایی.
طبق گزارش این مطالعه، این معماری تنها با ۳ درصد پارامترهای قابل آموزش، عملکرد رقابتی خود را در بنچمارکها حفظ میکند. این یافته، فرض بنیادین صنعت مبنی بر ضرورت پیمایش تمام لایهها توسط توکنهای بصری را به چالش میکشد. انتقال از «مقیاسپذیری متقارن» به «مسیریابی نامتقارن و آگاه به مودالیته»، میتواند هزینههای محاسبات (Compute) را بدون کاهش دقت ادراکی بهشدت پایین بیاورد.
گام بعدی شما
- بررسی مقالهی کامل در arxiv.org برای درک دقیقتر نقاط اشباع توکنها در مدلهای مختلف.
- رصد انتشار نسخههای جدید مدلهای وزنهای باز (Open Weights) برای یافتن پیادهسازیهای مبتنی بر DPVR.
- ارزیابی مجدد هزینههای استنتاج (Inference) در پروژههایی که با دادههای بصری حجیم سروکار دارند.
اما تأثیر این بهینهسازی بر سرعت واقعی پاسخدهی در محیطهای عملیاتی احتمالاً خیرهکنندهتر خواهد بود — به تحلیل ما دربارهی بهینهسازیهای لایهای در مدلهای استدلالی مراجعه کنید.
گفتگو