کاهش محاسبات بصری در MLLM با سازوکار ادغام لایه‌های انتهایی DPVR-LF

اگر تصور می‌کنید برای درک دقیق یک تصویر، توکن‌های بصری باید تمام مسیر لایه‌های یک مدل زبانی را طی کنند، در اشتباهید. یافته‌های جدید نشان می‌دهد که بخش عظیمی از محاسبات در مدل‌های چندوجهی، صرفاً تکرار اطلاعاتی است که در لایه‌های میانی تثبیت شده‌اند.

در معماری‌های فعلی، مدل‌ها با متن و تصویر به صورت متقارن برخورد می‌کنند. همان‌طور که در تحلیل قبلی ما درباره‌ی DRoRAE و بهبود کیفیت تصاویر اشاره کردیم، همواره این پرسش بود که آیا هر دو مودالیته به عمق پردازشی یکسانی نیاز دارند یا خیر.

به نقل از پژوهشی که در ۹ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، توکن‌های بصری در مدل‌های زبانی بزرگ چندوجهی (Multimodal Large Language Models - MLLM) مدت‌ها پیش از رسیدن به لایه‌ی نهایی، اشباع می‌شوند. پژوهشگران با تحلیل مدل LLaVA-1.5 دریافتند که میزان توجه (Attention) متن به تصویر از ۰.۶۸ در لایه‌ی صفر، در لایه‌ی چهارم به ۰.۰۷ سقوط کرده و پس از لایه‌ی ۱۸ در سطح ۰.۰۴ تثبیت می‌شود.

به همین دلیل، چارچوب مسیریابی توکن‌های بصری دوگانه (Dual-Path Vision Token Routing - DPVR) و نسخهٔ تکامل‌یافته‌ی آن یعنی ادغام لایه‌های انتهایی (Late-Layer Fusion - DPVR-LF) معرفی شدند. این سازوکار شامل موارد زیر است:

هدایت توکن (Token)‌های بصری در نقطه اشباع به یک شاخه‌ی جانبی قابل آموزش.
اجرای یک گذر مستقیم (Forward Pass) متنی در ۱۳ لایه که موقعیت‌های تصویری را نادیده می‌گیرد.
ادغام مجدد جریان‌های بصری و متنی تنها در لایه‌ی نهایی.

طبق گزارش این مطالعه، این معماری تنها با ۳ درصد پارامترهای قابل آموزش، عملکرد رقابتی خود را در بنچمارک‌ها حفظ می‌کند. این یافته، فرض بنیادین صنعت مبنی بر ضرورت پیمایش تمام لایه‌ها توسط توکن‌های بصری را به چالش می‌کشد. انتقال از «مقیاس‌پذیری متقارن» به «مسیریابی نامتقارن و آگاه به مودالیته»، می‌تواند هزینه‌های محاسبات (Compute) را بدون کاهش دقت ادراکی به‌شدت پایین بیاورد.

گام بعدی شما

بررسی مقاله‌ی کامل در arxiv.org برای درک دقیق‌تر نقاط اشباع توکن‌ها در مدل‌های مختلف.
رصد انتشار نسخه‌های جدید مدل‌های وزن‌های باز (Open Weights) برای یافتن پیاده‌سازی‌های مبتنی بر DPVR.
ارزیابی مجدد هزینه‌های استنتاج (Inference) در پروژه‌هایی که با داده‌های بصری حجیم سروکار دارند.

اما تأثیر این بهینه‌سازی بر سرعت واقعی پاسخ‌دهی در محیط‌های عملیاتی احتمالاً خیره‌کننده‌تر خواهد بود — به تحلیل ما درباره‌ی بهینه‌سازی‌های لایه‌ای در مدل‌های استدلالی مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

هدایت توکن (Token)‌های بصری در نقطه اشباع به یک شاخه‌ی جانبی قابل آموزش.
اجرای یک گذر مستقیم (Forward Pass) متنی در ۱۳ لایه که موقعیت‌های تصویری را نادیده می‌گیرد.
ادغام مجدد جریان‌های بصری و متنی تنها در لایه‌ی نهایی.

گام بعدی شما

بررسی مقاله‌ی کامل در arxiv.org برای درک دقیق‌تر نقاط اشباع توکن‌ها در مدل‌های مختلف.
رصد انتشار نسخه‌های جدید مدل‌های وزن‌های باز (Open Weights) برای یافتن پیاده‌سازی‌های مبتنی بر DPVR.
ارزیابی مجدد هزینه‌های استنتاج (Inference) در پروژه‌هایی که با داده‌های بصری حجیم سروکار دارند.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

کاهش محاسبات بصری در MLLM با سازوکار ادغام لایه‌های انتهایی DPVR-LF

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

کاهش محاسبات بصری در MLLM با سازوکار ادغام لایه‌های انتهایی DPVR-LF

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

کاهش محاسبات بصری در MLLM با سازوکار ادغام لایه‌های انتهایی DPVR-LF

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

کاهش محاسبات بصری در MLLM با سازوکار ادغام لایه‌های انتهایی DPVR-LF

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران