اگر تصور میکنید مدلهای چندوجهی تنها با افزودن دادههای بیشتر دقیقتر میشوند، با یک اشتباه بنیادی روبرو هستید؛ مشکل اصلی، تداخل حسی است.
در مدلهای زبانی بزرگ چندوجهی (AVLLM)، تداخل میان دادههای صوتی و تصویری اغلب منجر به توهم (Hallucination) میشود؛ وضعیتی که در آن یک حس، تفسیر حس دیگر را به اشتباه میاندازد. همانطور که در تحلیلهای پیشین ما دربارهی پایداری مدلهای استدلالی اشاره کردیم، ترکیب زودهنگام دادهها نویز پردازشی ایجاد میکند که منجر به خطاهای فکتچکینگ در خروجیها میشود.
به نقل از گزارشی که در ۱۲ مه ۲۰۲۶ در arXiv منتشر شد، چارچوب SFFL (مخفف Separate First, Fuse Later) با جداسازی زنجیره تفکر (Chain-of-Thought) برای هر مودالیته، این مشکل را حل میکند. بر اساس مستندات این پژوهش، خطلوله فنی این سیستم شامل سه رکن است:
- استدلال مجزا: مدل پیش از ادغام شواهد، مسیرهای استدلالی صوتی و تصویری را بهطور کاملاً مستقل تولید میکند.
- بهینهسازی RL: استفاده از برچسبهای ترجیح مودالیته بهعنوان پاداشهای کمکی در یادگیری تقویتشده (Reinforcement Learning) برای انتخاب دقیقتر سرنخها.
- تلفیق شواهد: مکانیزمی که ایزولاسیون مودالها را در مرحله استدلال حفظ کرده اما در مرحله پاسخ نهایی، دسترسی کامل متقاطع را فراهم میکند.
آزمایشها نشان میدهند که این رویکرد منجر به افزایش میانگین ۵.۱۶ درصدی در بنچمارکهای عمومی AVQA و بهبود ۱۱.۱۷ درصدی در بنچمارکهای تخصصی توهمات متقاطع شده است.
این نتایج نشان میدهد که استراتژی «ادغام زودهنگام» (Early Fusion) که استاندارد فعلی بسیاری از مدلهای چندوجهی (Multimodal) است، برای استدلالهای پیچیده ناکارآمد است. SFFL ثابت میکند که برای رسیدن به دقت بالا، باید ابتدا هر حس را بهطور مستقل تحلیل کرد و سپس نتایج را ترکیب نمود تا حس «بلندتر» باعث خفه شدن حس «دقیقتر» نشود.
گام بعدی شما
- بررسی جزئیات پیادهسازی SFFL در مقاله arXiv برای بهینهسازی خطلولههای استدلالی.
- ارزیابی جایگزینی معماریهای End-to-End با مدلهای استدلالی ماژولار در پروژههای بینایی-شنیداری.
- دنبال کردن پژوهشهای آتی دربارهی گسترش SFFL به سیستمهای سهوجهی (مانند دادههای حرارتی یا عمق).
اما هزینه محاسباتی این تفکیک در مقیاس صنعتی هنوز یک علامت سؤال است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو