اگر تصور میکنید مدلهای زبانی بزرگ درک درستی از نیات انسان دارند، احتمالاً به معیارهای اشتباهی نگاه میکنید. باید بدانید که توانایی یک مدل در «توضیح دادن» باورهای دیگران، به هیچ وجه به معنای توانایی او در «همکاری» با آنها در دنیای واقعی نیست.
نظریه ذهن (Theory of Mind یا ToM) همان قابلیتی است که به انسانها اجازه میدهد با ردیابی وضعیت دانشی دیگران، با آنها همکاری کنند. همانطور که در تحلیلهای پیشین ما دربارهی استدلال عاملمحور (Agentic) اشاره کردیم، شکاف عمیقی میان «دانستن» و «عمل کردن» در مدلهای فعلی وجود دارد. در حالی که مدلهای زبانی در تستهای متنیِ ToM موفق هستند، اما وقتی نوبت به محیطهای تجسمیافته و چند-عاملی میرسد، کاملاً فلج میشوند.
طبق مستندات منتشر شده در ۱۲ مه ۲۰۲۶ در arxiv.org، بنچمارک EnactToM شامل ۳۰۰ وظیفه در یک محیط خانگی سهبعدی است که در آن مشاهده محدود و ارتباطات سختگیرانه است. به نقل از این مطالعه، نتایج برای هفت مدل پیشرو تکاندهنده است:
- میانگین موفقیت در پرسوجوهای باورهای ادبی (Literal): ۴۵.۰٪
- نرخ موفقیت در تکمیل وظایف کاربردی (Functional) در بخش دشوار: ۰.۰٪
بر اساس بررسیهای دستی پژوهشگران، ۹۳٪ از این شکستها ناشی از فروپاشی هماهنگی معرفتی (Epistemic Coordination) است؛ یعنی مدلها یا اطلاعات حیاتی را پنهان میکنند، یا محدودیتهای شریک خود را نادیده میگیرند و یا پیامها را به اشتباه تخصیص میدهند.
این نتایج این فرض را که عملکرد بالا در بنچمارکهای زبانی با قابلیتهای عاملمحور همبستگی دارد، بهطور کامل رد میکند. برای جامعه فنی، این یک چرخش راهبردی است: هدف از بنچمارکها باید از پرسوجوهای ایستا به «قابلیت حل مسئله» در فضاهای سهبعدی تغییر کند. این ثابت میکند که استدلال درباره یک باور، یک جهش شناختی متفاوت از عمل بر اساس آن باور است.
گام بعدی شما
- اگر در حال توسعه عاملهای هوش مصنوعی برای محیطهای مشترک هستید، روی لایهی ارتباطی و هماهنگی معرفتی تمرکز کنید، نه فقط افزایش اندازه مدل.
- منتظر انتشار «تولیدکننده وظایف EnactToM» باشید تا نحوه مواجهه مدلها با سطوح دشواری متغیر را بررسی کنید.
- بررسی کنید که آیا مدل شما در محیطهای شبیهسازی شده، تفاوت بین «دانستن» و «اعمال کردن» را درک میکند یا خیر.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو