بنچمارک EnactToM: شکست ۱۰۰ درصدی مدل‌های پیشرو در وظایف کاربردی نظریه ذهن

اگر تصور می‌کنید مدل‌های زبانی بزرگ درک درستی از نیات انسان دارند، احتمالاً به معیارهای اشتباهی نگاه می‌کنید. باید بدانید که توانایی یک مدل در «توضیح دادن» باورهای دیگران، به هیچ وجه به معنای توانایی او در «همکاری» با آن‌ها در دنیای واقعی نیست.

نظریه ذهن (Theory of Mind یا ToM) همان قابلیتی است که به انسان‌ها اجازه می‌دهد با ردیابی وضعیت دانشی دیگران، با آن‌ها همکاری کنند. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی استدلال عامل‌محور (Agentic) اشاره کردیم، شکاف عمیقی میان «دانستن» و «عمل کردن» در مدل‌های فعلی وجود دارد. در حالی که مدل‌های زبانی در تست‌های متنیِ ToM موفق هستند، اما وقتی نوبت به محیط‌های تجسم‌یافته و چند-عاملی می‌رسد، کاملاً فلج می‌شوند.

طبق مستندات منتشر شده در ۱۲ مه ۲۰۲۶ در arxiv.org، بنچمارک EnactToM شامل ۳۰۰ وظیفه در یک محیط خانگی سه‌بعدی است که در آن مشاهده محدود و ارتباطات سخت‌گیرانه است. به نقل از این مطالعه، نتایج برای هفت مدل پیشرو تکان‌دهنده است:

میانگین موفقیت در پرس‌وجوهای باورهای ادبی (Literal): ۴۵.۰٪
نرخ موفقیت در تکمیل وظایف کاربردی (Functional) در بخش دشوار: ۰.۰٪

بر اساس بررسی‌های دستی پژوهشگران، ۹۳٪ از این شکست‌ها ناشی از فروپاشی هماهنگی معرفتی (Epistemic Coordination) است؛ یعنی مدل‌ها یا اطلاعات حیاتی را پنهان می‌کنند، یا محدودیت‌های شریک خود را نادیده می‌گیرند و یا پیام‌ها را به اشتباه تخصیص می‌دهند.

این نتایج این فرض را که عملکرد بالا در بنچمارک‌های زبانی با قابلیت‌های عامل‌محور همبستگی دارد، به‌طور کامل رد می‌کند. برای جامعه فنی، این یک چرخش راهبردی است: هدف از بنچمارک‌ها باید از پرس‌وجوهای ایستا به «قابلیت حل مسئله» در فضاهای سه‌بعدی تغییر کند. این ثابت می‌کند که استدلال درباره یک باور، یک جهش شناختی متفاوت از عمل بر اساس آن باور است.

گام بعدی شما

اگر در حال توسعه عامل‌های هوش مصنوعی برای محیط‌های مشترک هستید، روی لایه‌ی ارتباطی و هماهنگی معرفتی تمرکز کنید، نه فقط افزایش اندازه مدل.
منتظر انتشار «تولیدکننده وظایف EnactToM» باشید تا نحوه مواجهه مدل‌ها با سطوح دشواری متغیر را بررسی کنید.
بررسی کنید که آیا مدل شما در محیط‌های شبیه‌سازی شده، تفاوت بین «دانستن» و «اعمال کردن» را درک می‌کند یا خیر.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

میانگین موفقیت در پرس‌وجوهای باورهای ادبی (Literal): ۴۵.۰٪
نرخ موفقیت در تکمیل وظایف کاربردی (Functional) در بخش دشوار: ۰.۰٪

گام بعدی شما

اگر در حال توسعه عامل‌های هوش مصنوعی برای محیط‌های مشترک هستید، روی لایه‌ی ارتباطی و هماهنگی معرفتی تمرکز کنید، نه فقط افزایش اندازه مدل.
منتظر انتشار «تولیدکننده وظایف EnactToM» باشید تا نحوه مواجهه مدل‌ها با سطوح دشواری متغیر را بررسی کنید.
بررسی کنید که آیا مدل شما در محیط‌های شبیه‌سازی شده، تفاوت بین «دانستن» و «اعمال کردن» را درک می‌کند یا خیر.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

بنچمارک EnactToM: شکست ۱۰۰ درصدی مدل‌های پیشرو در وظایف کاربردی نظریه ذهن

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

بنچمارک EnactToM: شکست ۱۰۰ درصدی مدل‌های پیشرو در وظایف کاربردی نظریه ذهن

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

بنچمارک EnactToM: شکست ۱۰۰ درصدی مدل‌های پیشرو در وظایف کاربردی نظریه ذهن

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

بنچمارک EnactToM: شکست ۱۰۰ درصدی مدل‌های پیشرو در وظایف کاربردی نظریه ذهن

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران