آیا یک مدل چندوجهی واقعاً میتواند هنگام توضیح یک روند پیچیده، به نمودار مربوطه «اشاره» کند یا صرفاً بر اساس متن حدس میزند؟ اگر از مدلهای فعلی برای تحلیل گزارشهای PDF استفاده میکنید، احتمالاً متوجه شدهاید که آنها تمایل دارند پاسخها را فقط بر اساس متن بدهند و دادههای بصری غنی را نادیده بگیرند.
VinQA، مجموعه دادهای که در ۱۵ ژوئن ۲۰۲۶ منتشر شد، دقیقاً همین مشکل را هدف قرار داده است. طبق اعلام پژوهشگران، این framework مدلها را مجبور میکند پاسخهایی طولانی تولید کنند که در آن عناصر بصری بهطور فعال در متن جای گرفته و به صفحات خاصی از سند مستند شده باشند.
بسیاری از مدلهای زبانی بزرگ چندوجهی (Multimodal LLMs) از سوگیری «پاسخ متنمحور» رنج میبرند. این یعنی مدلها تفاوت بین یک توصیف ساده از تصویر و سنتز واقعی اطلاعات (که در آن یک جدول یا دیاگرام مدرک اصلی ادعاست) را نمیفهمند. همانطور که در تحلیلهای پیشین ما دربارهی امنیت مدلهای باز-متن اشاره کردیم، توانایی مدل در «مبنیسازی» (Grounding) دادهها، مرز بین یک ابزار کاربردی و یک ماشین تولید توهم است.
بر اساس مستندات این پژوهش، دو استراتژی رمزگذاری برای حل این چالش آزمایش شد:
- رمزگذاری صفحه (Page Encoding): تبدیل مستقیم تصاویر کامل صفحه با استفاده از جعبههای محصورکننده (Bounding Boxes) به عنوان واحدهای قابل استناد.
- رمزگذاری وجه (Modality Encoding): تجزیه صفحات برای استخراج متن و برش عناصر بصری بهصورت مجزا جهت رمزگذاری.
برای سنجش موفقیت، تیم سازنده چارچوب M-GroSE را توسعه داد تا معیارهایی چون کامل بودن، مرتبط بودن و وفاداری به منبع را بسنجد. همچنین ابزار Visual Source F1 برای quantification دقت استنادها و Visual G-Eval (یک داور مبتنی بر MLLM) برای تأیید جایگذاری صحیح تصاویر در جایگاه معنایی درست معرفی شدند.
تحلیل دادهها یک چرخش راهبردی را نشان میدهد: اگرچه رمزگذاری وجه در ابتدا برای اسناد پیچیده مقاومتر است، اما تنظیم دقیق (Fine-tuning) مدلهای Qwen2.5-VL با وزنهای باز روی VinQA اجازه میدهد تا رمزگذاری صفحه به عملکردی مشابه برسد. این یعنی با پیشرفت استدلال مکانمند در مدلها، شاید دیگر نیازی به تجزیه دستی و پیچیده اسناد نباشد.
گام بعدی شما
- بررسی کنید که آیا ادغام استنادات بصری در خطلوله های تولید بازیابیافزا (RAG) میتواند نرخ توهم را در گزارشهای خودکار شما کاهش میدهد یا خیر.
- مقایسه خروجیهای مدلهای باز-وزن (مانند Qwen) با مدلهای بسته در تحلیل اسناد دارای جدول.
- مطالعه مستندات M-GroSE برای ارزیابی دقیقتر مدلهای استخراج داده از PDF.
اما اثر این پیشرفت بر کاهش هزینههای پردازشی در مقیاس سازمانی حتی حیاتیتر است — به تحلیل ما دربارهی بهینهسازی هزینههای استنتاج مراجعه کنید.




گفتگو