چرا مدل‌های چندوجهی در استناد به تصاویر اسناد طولانی شکست می‌خورند؟

آیا یک مدل چندوجهی واقعاً می‌تواند هنگام توضیح یک روند پیچیده، به نمودار مربوطه «اشاره» کند یا صرفاً بر اساس متن حدس می‌زند؟ اگر از مدل‌های فعلی برای تحلیل گزارش‌های PDF استفاده می‌کنید، احتمالاً متوجه شده‌اید که آن‌ها تمایل دارند پاسخ‌ها را فقط بر اساس متن بدهند و داده‌های بصری غنی را نادیده بگیرند.

VinQA، مجموعه داده‌ای که در ۱۵ ژوئن ۲۰۲۶ منتشر شد، دقیقاً همین مشکل را هدف قرار داده است. طبق اعلام پژوهشگران، این framework مدل‌ها را مجبور می‌کند پاسخ‌هایی طولانی تولید کنند که در آن عناصر بصری به‌طور فعال در متن جای گرفته و به صفحات خاصی از سند مستند شده باشند.

بسیاری از مدل‌های زبانی بزرگ چندوجهی (Multimodal LLMs) از سوگیری «پاسخ متن‌محور» رنج می‌برند. این یعنی مدل‌ها تفاوت بین یک توصیف ساده از تصویر و سنتز واقعی اطلاعات (که در آن یک جدول یا دیاگرام مدرک اصلی ادعاست) را نمی‌فهمند. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی امنیت مدل‌های باز-متن اشاره کردیم، توانایی مدل در «مبنی‌سازی» (Grounding) داده‌ها، مرز بین یک ابزار کاربردی و یک ماشین تولید توهم است.

بر اساس مستندات این پژوهش، دو استراتژی رمزگذاری برای حل این چالش آزمایش شد:

رمزگذاری صفحه (Page Encoding): تبدیل مستقیم تصاویر کامل صفحه با استفاده از جعبه‌های محصورکننده (Bounding Boxes) به عنوان واحدهای قابل استناد.
رمزگذاری وجه (Modality Encoding): تجزیه صفحات برای استخراج متن و برش عناصر بصری به‌صورت مجزا جهت رمزگذاری.

برای سنجش موفقیت، تیم سازنده چارچوب M-GroSE را توسعه داد تا معیارهایی چون کامل بودن، مرتبط بودن و وفاداری به منبع را بسنجد. همچنین ابزار Visual Source F1 برای quantification دقت استنادها و Visual G-Eval (یک داور مبتنی بر MLLM) برای تأیید جایگذاری صحیح تصاویر در جایگاه معنایی درست معرفی شدند.

تحلیل داده‌ها یک چرخش راهبردی را نشان می‌دهد: اگرچه رمزگذاری وجه در ابتدا برای اسناد پیچیده مقاوم‌تر است، اما تنظیم دقیق (Fine-tuning) مدل‌های Qwen2.5-VL با وزن‌های باز روی VinQA اجازه می‌دهد تا رمزگذاری صفحه به عملکردی مشابه برسد. این یعنی با پیشرفت استدلال مکان‌مند در مدل‌ها، شاید دیگر نیازی به تجزیه دستی و پیچیده اسناد نباشد.

گام بعدی شما

بررسی کنید که آیا ادغام استنادات بصری در خط‌لوله های تولید بازیابی‌افزا (RAG) می‌تواند نرخ توهم را در گزارش‌های خودکار شما کاهش می‌دهد یا خیر.
مقایسه خروجی‌های مدل‌های باز-وزن (مانند Qwen) با مدل‌های بسته در تحلیل اسناد دارای جدول.
مطالعه مستندات M-GroSE برای ارزیابی دقیق‌تر مدل‌های استخراج داده از PDF.

اما اثر این پیشرفت بر کاهش هزینه‌های پردازشی در مقیاس سازمانی حتی حیاتی‌تر است — به تحلیل ما درباره‌ی بهینه‌سازی هزینه‌های استنتاج مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

بر اساس مستندات این پژوهش، دو استراتژی رمزگذاری برای حل این چالش آزمایش شد:

رمزگذاری صفحه (Page Encoding): تبدیل مستقیم تصاویر کامل صفحه با استفاده از جعبه‌های محصورکننده (Bounding Boxes) به عنوان واحدهای قابل استناد.
رمزگذاری وجه (Modality Encoding): تجزیه صفحات برای استخراج متن و برش عناصر بصری به‌صورت مجزا جهت رمزگذاری.

گام بعدی شما

بررسی کنید که آیا ادغام استنادات بصری در خط‌لوله های تولید بازیابی‌افزا (RAG) می‌تواند نرخ توهم را در گزارش‌های خودکار شما کاهش می‌دهد یا خیر.
مقایسه خروجی‌های مدل‌های باز-وزن (مانند Qwen) با مدل‌های بسته در تحلیل اسناد دارای جدول.
مطالعه مستندات M-GroSE برای ارزیابی دقیق‌تر مدل‌های استخراج داده از PDF.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا مدل‌های چندوجهی در استناد به تصاویر اسناد طولانی شکست می‌خورند؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا مدل‌های چندوجهی در استناد به تصاویر اسناد طولانی شکست می‌خورند؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا مدل‌های چندوجهی در استناد به تصاویر اسناد طولانی شکست می‌خورند؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا مدل‌های چندوجهی در استناد به تصاویر اسناد طولانی شکست می‌خورند؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران