تصور کنید مدلی که میتواند پیچیدهترین کدهای برنامهنویسی را بنویسد، در برابر یک گره سادهی ریاضی تسلیم شود. باید بدانید که حتی پیشرفتهترین مدلهای چندوجهی (Multimodal) در مواجهه با استدلالهای دیاگرامی، عملاً در حال حدس زدن هستند.
در ۱۲ مه ۲۰۲۶، پژوهشگران ثابت کردند که فاصله میان «دیدن یک ساختار» و «عملیات روی آن»، همچنان یک نقطه کور بحرانی برای هوش مصنوعی است. همانطور که در تحلیلهای پیشین ما دربارهی محدودیتهای مدلهای چندوجهی اشاره کردیم، توانایی توصیف یک تصویر را نباید با درک منطق فضایی آن اشتباه گرفت. در حالی که مدلهای زبانی-بینایی میتوانند اجزای یک تصویر را شرح دهند، شبیهسازی یک فرآیند فیزیکی یا ریاضی — مانند باز کردن یک گره — نیازمند سطح از منطق فضایی است که معماریهای فعلی فاقد آن هستند.
این بنچمارک با استفاده از مجموعهای شامل ۸۵۸,۳۱۸ تصویر بر اساس ۱,۹۵۱ نمونهی اولیه از گرههای اولیهی ریاضی طراحی شده است. به نقل از گزارش منتشر شده در arxiv.org، مدلهای Claude Opus و GPT-5 در ۱۴ تکلیف مختلف، از جمله قضاوت دربارهی برابری گرهها و پیشبینی حرکات، مورد آزمایش قرار گرفتند:
- ۱۵ مورد از ۵۶ حالت (ترکیب مدل و تکلیف)، عملکردی برابر یا پایینتر از حدس تصادفی داشتند.
- در ۸ مورد از ۱۴ تکلیف، بهترین نمرات بهدستآمده کمتر از ۱.۵ برابر حدس تصادفی بود.
- تبدیل دیاگرام به نماد (Transcription) تقریباً بهطور کامل شکست خورد و تنها ۰ تا ۴ مورد صحیح در هر ۱۰۰ مورد ثبت شد.
- استفاده از حالت تفکر یا زنجیره تفکر (Chain-of-Thought) تنها بهبود اندکی ایجاد کرد: افزایش دقت ۹.۲۵ واحدی برای GPT-5 و ۱.۶۵ واحدی برای Claude Opus.
برای جامعهی فنی، این نتایج هدف را از «بازشناسی بصری» به «شبیهسازی بصری» تغییر میدهد. بر اساس مستندات این پژوهش، مشخص شد که افزایش مقیاس پارامترها یا افزودن لایههای تفکر، بهطور خودکار توانایی انجام عملیات توپولوژیک را به مدل نمیبخشد. این «شکاف ادراکی-عملیاتی» نشان میدهد که مدلها صرفاً در حال تطبیق الگوهای بصری هستند، بدون اینکه قوانین زیربنایی سیستمی را که مشاهده میکنند، درک کنند.
گام بعدی شما
- پروتکل کامل KnotBench را در arxiv.org بررسی کنید تا متوجه شوید مدلهای تخصصی تنظیم دقیق (Fine-tuning) شده چگونه میتوانند سقف حدس تصادفی را بشکنند.
- منتظر ظهور معماریهای جدیدی باشید که موتورهای استدلال نمادین را بهطور مستقیم در حلقهی مدلهای چندوجهی ادغام میکنند.
- اگر روی سیستمهای بینایی ماشین کار میکنید، تفاوت میان Recognition و Simulation را در دادههای خود بسنجید.
اما آیا این شکست تنها به دیاگرامهای گره محدود میشود یا ریشهای عمیقتر در پردازش تصویر دارد؟ به تحلیل ما دربارهی معماریهای جدید VLM مراجعه کنید.




گفتگو