یک تیم تحقیقاتی مجموعه داده INDOTABVQA را معرفی کرده است که برای ارزیابی مدلهای بینایی-زبانی در وظایف پرسش و پاسخ بصری جداول چندزبانه با استفاده از اسناد واقعی به زبان باهاسا اندونزی طراحی شده است. این مجموعه داده شامل ۱٬۵۹۳ تصویر سند است که سه سبک بصری متمایز را در بر میگیرد. هر تصویر با مجموعهای از سؤالات و پاسخها در چهار زبان جفت شده است: باهاسا اندونزی، انگلیسی، هندی و عربی. این ساختار امکان ارزیابی سیستماتیک مدلهای بینایی-زبانی را در سناریوهای تکزبانه و چندزبانه فراهم میکند. در ارزیابیهای انجامشده، مدلهای پیشرو متنباز از جمله Qwen2.5-VL، Gemma-3، LLaMA-3.2 و GPT-4o مورد آزمایش قرار گرفتند. نتایج نشاندهنده شکافهای عملکردی قابلتوجه در تمامی مدلهای آزمایششده بود، بهویژه در جداول با ساختار پیچیده و هنگام پردازش زبانهای کممنبع. این یافتهها نشان میدهند که مدلهای فعلی پیشرفته هنوز در درک اسناد در زمینههای غیرانگلیسی و غیراروپایی با مشکلاتی مواجه هستند. آزمایشهای تنظیم دقیق نشاندهنده ارزش آموزش هدفمند بود. یک مدل فشرده با ۳ میلیارد پارامتر پس از تنظیم دقیق بهبود ۱۱.۶٪ در دقت را نشان داد، در حالی که یک مدل ۷ میلیارد پارامتری با تنظیم LoRA به دستاوردهای ۱۷.۸٪ دست یافت. علاوه بر این، گنجاندن مختصات مناطق جدول بهعنوان اطلاعات مکانی اضافی، عملکرد مدل را ۴ تا ۷ درصد بهبود بخشید و اهمیت آگاهی ساختاری برای وظایف استدلالی مبتنی بر جدول را برجسته کرد.

گفتگو