شکاف ادراکی-عملیاتی در KnotBench: دلیل شکست GPT-5 در استدلال دیاگرامی

تصور کنید مدلی که می‌تواند پیچیده‌ترین کدهای برنامه‌نویسی را بنویسد، در برابر یک گره ساده‌ی ریاضی تسلیم شود. باید بدانید که حتی پیشرفته‌ترین مدل‌های چندوجهی (Multimodal) در مواجهه با استدلال‌های دیاگرامی، عملاً در حال حدس زدن هستند.

در ۱۲ مه ۲۰۲۶، پژوهشگران ثابت کردند که فاصله میان «دیدن یک ساختار» و «عملیات روی آن»، همچنان یک نقطه کور بحرانی برای هوش مصنوعی است. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی محدودیت‌های مدل‌های چندوجهی اشاره کردیم، توانایی توصیف یک تصویر را نباید با درک منطق فضایی آن اشتباه گرفت. در حالی که مدل‌های زبانی-بینایی می‌توانند اجزای یک تصویر را شرح دهند، شبیه‌سازی یک فرآیند فیزیکی یا ریاضی — مانند باز کردن یک گره — نیازمند سطح از منطق فضایی است که معماری‌های فعلی فاقد آن هستند.

این بنچمارک با استفاده از مجموعه‌ای شامل ۸۵۸,۳۱۸ تصویر بر اساس ۱,۹۵۱ نمونه‌ی اولیه از گره‌های اولیه‌ی ریاضی طراحی شده است. به نقل از گزارش منتشر شده در arxiv.org، مدل‌های Claude Opus و GPT-5 در ۱۴ تکلیف مختلف، از جمله قضاوت درباره‌ی برابری گره‌ها و پیش‌بینی حرکات، مورد آزمایش قرار گرفتند:

۱۵ مورد از ۵۶ حالت (ترکیب مدل و تکلیف)، عملکردی برابر یا پایین‌تر از حدس تصادفی داشتند.
در ۸ مورد از ۱۴ تکلیف، بهترین نمرات به‌دست‌آمده کمتر از ۱.۵ برابر حدس تصادفی بود.
تبدیل دیاگرام به نماد (Transcription) تقریباً به‌طور کامل شکست خورد و تنها ۰ تا ۴ مورد صحیح در هر ۱۰۰ مورد ثبت شد.
استفاده از حالت تفکر یا زنجیره تفکر (Chain-of-Thought) تنها بهبود اندکی ایجاد کرد: افزایش دقت ۹.۲۵ واحدی برای GPT-5 و ۱.۶۵ واحدی برای Claude Opus.

برای جامعه‌ی فنی، این نتایج هدف را از «بازشناسی بصری» به «شبیه‌سازی بصری» تغییر می‌دهد. بر اساس مستندات این پژوهش، مشخص شد که افزایش مقیاس پارامترها یا افزودن لایه‌های تفکر، به‌طور خودکار توانایی انجام عملیات توپولوژیک را به مدل نمی‌بخشد. این «شکاف ادراکی-عملیاتی» نشان می‌دهد که مدل‌ها صرفاً در حال تطبیق الگوهای بصری هستند، بدون اینکه قوانین زیربنایی سیستمی را که مشاهده می‌کنند، درک کنند.

گام بعدی شما

پروتکل کامل KnotBench را در arxiv.org بررسی کنید تا متوجه شوید مدل‌های تخصصی تنظیم دقیق (Fine-tuning) شده چگونه می‌توانند سقف حدس تصادفی را بشکنند.
منتظر ظهور معماری‌های جدیدی باشید که موتورهای استدلال نمادین را به‌طور مستقیم در حلقه‌ی مدل‌های چندوجهی ادغام می‌کنند.
اگر روی سیستم‌های بینایی ماشین کار می‌کنید، تفاوت میان Recognition و Simulation را در داده‌های خود بسنجید.

اما آیا این شکست تنها به دیاگرام‌های گره محدود می‌شود یا ریشه‌ای عمیق‌تر در پردازش تصویر دارد؟ به تحلیل ما درباره‌ی معماری‌های جدید VLM مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

۱۵ مورد از ۵۶ حالت (ترکیب مدل و تکلیف)، عملکردی برابر یا پایین‌تر از حدس تصادفی داشتند.
در ۸ مورد از ۱۴ تکلیف، بهترین نمرات به‌دست‌آمده کمتر از ۱.۵ برابر حدس تصادفی بود.
تبدیل دیاگرام به نماد (Transcription) تقریباً به‌طور کامل شکست خورد و تنها ۰ تا ۴ مورد صحیح در هر ۱۰۰ مورد ثبت شد.
استفاده از حالت تفکر یا زنجیره تفکر (Chain-of-Thought) تنها بهبود اندکی ایجاد کرد: افزایش دقت ۹.۲۵ واحدی برای GPT-5 و ۱.۶۵ واحدی برای Claude Opus.

گام بعدی شما

پروتکل کامل KnotBench را در arxiv.org بررسی کنید تا متوجه شوید مدل‌های تخصصی تنظیم دقیق (Fine-tuning) شده چگونه می‌توانند سقف حدس تصادفی را بشکنند.
منتظر ظهور معماری‌های جدیدی باشید که موتورهای استدلال نمادین را به‌طور مستقیم در حلقه‌ی مدل‌های چندوجهی ادغام می‌کنند.
اگر روی سیستم‌های بینایی ماشین کار می‌کنید، تفاوت میان Recognition و Simulation را در داده‌های خود بسنجید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

شکاف ادراکی-عملیاتی در KnotBench: دلیل شکست GPT-5 در استدلال دیاگرامی

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

شکاف ادراکی-عملیاتی در KnotBench: دلیل شکست GPT-5 در استدلال دیاگرامی

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

شکاف ادراکی-عملیاتی در KnotBench: دلیل شکست GPT-5 در استدلال دیاگرامی

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

شکاف ادراکی-عملیاتی در KnotBench: دلیل شکست GPT-5 در استدلال دیاگرامی

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران