Polaris-Bench: سقوط دقت مدل‌های پیشرو از ۸۳٪ به ۳۱٪ در تست‌های بصری

باید بدانید که مدل‌های پیشرو در استدلال بصری، در واقع دارند تقلب می‌کنند. تصور کنید سیستمی که ادعا می‌کند فضای سه بعدی را می‌فهمد، در حقیقت فقط یاد گرفته است چگونه اعداد یک جدول را با هم جمع بزند.

این مدل‌ها از آنچه «میان‌بر دکارتی» (Cartesian Shortcut) نامیده می‌شود، استفاده می‌کنند؛ یعنی به جای درک واقعی هندسی، از منطق متنیِ مبتنی بر شبکه‌های orthogonal برای پاسخ به سؤالات استفاده می‌کنند. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی توهمات بصری در مدل‌های زبانی اشاره کردیم، شکاف میان «عملکرد در بنچمارک» و «درک واقعی» در حال عمیق‌تر شدن است.

طبق اعلام پژوهشگران در گزارش منتشر شده در arxiv.org در ۱۲ مه ۲۰۲۶، برای افشای این ضعف، ابزاری به نام Polaris-Bench طراحی شده است. این مجموعه شامل ۵۳ تکلیف استدلال بصری است که از فضای دکارتی به فضای مختصات قطبی (Polar coordinate space) منتقل شده‌اند تا پیش‌فرض‌های شبکه‌ای مدل‌ها شکسته شود. نتایج بررسی ۱۴ مدل پیشرو تکان‌دهنده بود:

دقت در چیدمان دکارتی: ۷۰٪ تا ۸۳٪
دقت در معادل قطبی: ۳۱٪ تا ۳۹٪

این افت شدید عملکرد در حالی رخ می‌دهد که محدودیت‌های منطقی و معنای تکالیف هیچ تغییری نکرده است. این یعنی مدل‌ها قادر نیستند استدلال خود را در توپولوژی‌های مختلف مختصاتی حفظ کنند.

از نگاه فنی، این یافته فرضیات بنیادین درباره‌ی توانمندی‌های مدل‌های زبانی بزرگ چندوجهی (Multimodal Large Language Models - MLLMs) را تغییر می‌دهد. ثابت شد که «استدلال بصری» فعلی، صرفاً جایگزینی برای پردازش متنیِ مختصات است و مدل‌ها فاقد استدلال ناوردا در توپولوژی (Topology-invariant reasoning) هستند.

گام بعدی شما

اگر توسعه‌دهنده هستید، برای ارزیابی واقعی مدل‌های بینایی، از بنچمارک‌هایی استفاده کنید که پیش‌فرض‌های شبکه‌ای (Grid priors) را حذف کرده‌اند.
متدولوژی Polaris-Bench را در arXiv مطالعه کنید تا متوجه شوید چگونه تغییر مختصات می‌تواند نقاط کور مدل را آشکار کند.
در پیاده‌سازی‌های عملی، به جای اعتماد به نمرات بنچمارک‌های استاندارد، تست‌های استرس (Stress Test) با تغییر زاویه و فرم هندسی را جایگزین کنید.

اما این ضعف در درک فضا، تنها بخشی از یک چالش بزرگ‌تر است؛ برای درک نحوه پردازش توکن‌های بصری، تحلیل ما درباره‌ی معماری ViT را بخوانید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

دقت در چیدمان دکارتی: ۷۰٪ تا ۸۳٪
دقت در معادل قطبی: ۳۱٪ تا ۳۹٪

گام بعدی شما

اگر توسعه‌دهنده هستید، برای ارزیابی واقعی مدل‌های بینایی، از بنچمارک‌هایی استفاده کنید که پیش‌فرض‌های شبکه‌ای (Grid priors) را حذف کرده‌اند.
متدولوژی Polaris-Bench را در arXiv مطالعه کنید تا متوجه شوید چگونه تغییر مختصات می‌تواند نقاط کور مدل را آشکار کند.
در پیاده‌سازی‌های عملی، به جای اعتماد به نمرات بنچمارک‌های استاندارد، تست‌های استرس (Stress Test) با تغییر زاویه و فرم هندسی را جایگزین کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Polaris-Bench: سقوط دقت مدل‌های پیشرو از ۸۳٪ به ۳۱٪ در تست‌های بصری

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Polaris-Bench: سقوط دقت مدل‌های پیشرو از ۸۳٪ به ۳۱٪ در تست‌های بصری

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Polaris-Bench: سقوط دقت مدل‌های پیشرو از ۸۳٪ به ۳۱٪ در تست‌های بصری

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Polaris-Bench: سقوط دقت مدل‌های پیشرو از ۸۳٪ به ۳۱٪ در تست‌های بصری

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران