باید بدانید که مدلهای پیشرو در استدلال بصری، در واقع دارند تقلب میکنند. تصور کنید سیستمی که ادعا میکند فضای سه بعدی را میفهمد، در حقیقت فقط یاد گرفته است چگونه اعداد یک جدول را با هم جمع بزند.
این مدلها از آنچه «میانبر دکارتی» (Cartesian Shortcut) نامیده میشود، استفاده میکنند؛ یعنی به جای درک واقعی هندسی، از منطق متنیِ مبتنی بر شبکههای orthogonal برای پاسخ به سؤالات استفاده میکنند. همانطور که در تحلیلهای پیشین ما دربارهی توهمات بصری در مدلهای زبانی اشاره کردیم، شکاف میان «عملکرد در بنچمارک» و «درک واقعی» در حال عمیقتر شدن است.
طبق اعلام پژوهشگران در گزارش منتشر شده در arxiv.org در ۱۲ مه ۲۰۲۶، برای افشای این ضعف، ابزاری به نام Polaris-Bench طراحی شده است. این مجموعه شامل ۵۳ تکلیف استدلال بصری است که از فضای دکارتی به فضای مختصات قطبی (Polar coordinate space) منتقل شدهاند تا پیشفرضهای شبکهای مدلها شکسته شود. نتایج بررسی ۱۴ مدل پیشرو تکاندهنده بود:
- دقت در چیدمان دکارتی: ۷۰٪ تا ۸۳٪
- دقت در معادل قطبی: ۳۱٪ تا ۳۹٪
این افت شدید عملکرد در حالی رخ میدهد که محدودیتهای منطقی و معنای تکالیف هیچ تغییری نکرده است. این یعنی مدلها قادر نیستند استدلال خود را در توپولوژیهای مختلف مختصاتی حفظ کنند.
از نگاه فنی، این یافته فرضیات بنیادین دربارهی توانمندیهای مدلهای زبانی بزرگ چندوجهی (Multimodal Large Language Models - MLLMs) را تغییر میدهد. ثابت شد که «استدلال بصری» فعلی، صرفاً جایگزینی برای پردازش متنیِ مختصات است و مدلها فاقد استدلال ناوردا در توپولوژی (Topology-invariant reasoning) هستند.
گام بعدی شما
- اگر توسعهدهنده هستید، برای ارزیابی واقعی مدلهای بینایی، از بنچمارکهایی استفاده کنید که پیشفرضهای شبکهای (Grid priors) را حذف کردهاند.
- متدولوژی Polaris-Bench را در arXiv مطالعه کنید تا متوجه شوید چگونه تغییر مختصات میتواند نقاط کور مدل را آشکار کند.
- در پیادهسازیهای عملی، به جای اعتماد به نمرات بنچمارکهای استاندارد، تستهای استرس (Stress Test) با تغییر زاویه و فرم هندسی را جایگزین کنید.
اما این ضعف در درک فضا، تنها بخشی از یک چالش بزرگتر است؛ برای درک نحوه پردازش توکنهای بصری، تحلیل ما دربارهی معماری ViT را بخوانید.




گفتگو