گزارش arXiv: چارچوب SFFL نرخ توهمات در مدل‌های صوتی-تصویری را ۱۱.۱۷٪ کاهش داد

اگر تصور می‌کنید مدل‌های چندوجهی تنها با افزودن داده‌های بیشتر دقیق‌تر می‌شوند، با یک اشتباه بنیادی روبرو هستید؛ مشکل اصلی، تداخل حسی است.

در مدل‌های زبانی بزرگ چندوجهی (AVLLM)، تداخل میان داده‌های صوتی و تصویری اغلب منجر به توهم (Hallucination) می‌شود؛ وضعیتی که در آن یک حس، تفسیر حس دیگر را به اشتباه می‌اندازد. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی پایداری مدل‌های استدلالی اشاره کردیم، ترکیب زودهنگام داده‌ها نویز پردازشی ایجاد می‌کند که منجر به خطاهای فکت‌چکینگ در خروجی‌ها می‌شود.

به نقل از گزارشی که در ۱۲ مه ۲۰۲۶ در arXiv منتشر شد، چارچوب SFFL (مخفف Separate First, Fuse Later) با جداسازی زنجیره تفکر (Chain-of-Thought) برای هر مودالیته، این مشکل را حل می‌کند. بر اساس مستندات این پژوهش، خط‌لوله فنی این سیستم شامل سه رکن است:

استدلال مجزا: مدل پیش از ادغام شواهد، مسیرهای استدلالی صوتی و تصویری را به‌طور کاملاً مستقل تولید می‌کند.
بهینه‌سازی RL: استفاده از برچسب‌های ترجیح مودالیته به‌عنوان پاداش‌های کمکی در یادگیری تقویت‌شده (Reinforcement Learning) برای انتخاب دقیق‌تر سرنخ‌ها.
تلفیق شواهد: مکانیزمی که ایزولاسیون مودال‌ها را در مرحله استدلال حفظ کرده اما در مرحله پاسخ نهایی، دسترسی کامل متقاطع را فراهم می‌کند.

آزمایش‌ها نشان می‌دهند که این رویکرد منجر به افزایش میانگین ۵.۱۶ درصدی در بنچمارک‌های عمومی AVQA و بهبود ۱۱.۱۷ درصدی در بنچمارک‌های تخصصی توهمات متقاطع شده است.

این نتایج نشان می‌دهد که استراتژی «ادغام زودهنگام» (Early Fusion) که استاندارد فعلی بسیاری از مدل‌های چندوجهی (Multimodal) است، برای استدلال‌های پیچیده ناکارآمد است. SFFL ثابت می‌کند که برای رسیدن به دقت بالا، باید ابتدا هر حس را به‌طور مستقل تحلیل کرد و سپس نتایج را ترکیب نمود تا حس «بلندتر» باعث خفه شدن حس «دقیق‌تر» نشود.

گام بعدی شما

بررسی جزئیات پیاده‌سازی SFFL در مقاله arXiv برای بهینه‌سازی خط‌لوله‌های استدلالی.
ارزیابی جایگزینی معماری‌های End-to-End با مدل‌های استدلالی ماژولار در پروژه‌های بینایی-شنیداری.
دنبال کردن پژوهش‌های آتی درباره‌ی گسترش SFFL به سیستم‌های سه‌وجهی (مانند داده‌های حرارتی یا عمق).

اما هزینه محاسباتی این تفکیک در مقیاس صنعتی هنوز یک علامت سؤال است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

استدلال مجزا: مدل پیش از ادغام شواهد، مسیرهای استدلالی صوتی و تصویری را به‌طور کاملاً مستقل تولید می‌کند.
بهینه‌سازی RL: استفاده از برچسب‌های ترجیح مودالیته به‌عنوان پاداش‌های کمکی در یادگیری تقویت‌شده (Reinforcement Learning) برای انتخاب دقیق‌تر سرنخ‌ها.
تلفیق شواهد: مکانیزمی که ایزولاسیون مودال‌ها را در مرحله استدلال حفظ کرده اما در مرحله پاسخ نهایی، دسترسی کامل متقاطع را فراهم می‌کند.

گام بعدی شما

بررسی جزئیات پیاده‌سازی SFFL در مقاله arXiv برای بهینه‌سازی خط‌لوله‌های استدلالی.
ارزیابی جایگزینی معماری‌های End-to-End با مدل‌های استدلالی ماژولار در پروژه‌های بینایی-شنیداری.
دنبال کردن پژوهش‌های آتی درباره‌ی گسترش SFFL به سیستم‌های سه‌وجهی (مانند داده‌های حرارتی یا عمق).

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش arXiv: چارچوب SFFL نرخ توهمات در مدل‌های صوتی-تصویری را ۱۱.۱۷٪ کاهش داد

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش arXiv: چارچوب SFFL نرخ توهمات در مدل‌های صوتی-تصویری را ۱۱.۱۷٪ کاهش داد

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش arXiv: چارچوب SFFL نرخ توهمات در مدل‌های صوتی-تصویری را ۱۱.۱۷٪ کاهش داد

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش arXiv: چارچوب SFFL نرخ توهمات در مدل‌های صوتی-تصویری را ۱۱.۱۷٪ کاهش داد

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران