اگر تصور میکنید مدلهای چندوجهی اکنون آمادهاند تا رباتها را در محیطهای پیچیده مدیریت کنند، اعداد جدید چیز دیگری میگویند. باید بدانید که شکاف میان «دیدن» و «انجام دادن» در هوش مصنوعی عمیقتر از آن است که با افزایش دادههای تصویری پر شود.
به نقل از گزارشی که در ۱۰ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، مدل Gemini-3.1-Pro تنها توانست ۲۱ درصد از پرسوجوهای پایان-به-پایان را در یک بنچمارک جدید به نام PhysTool-Bench تکمیل کند.
همانطور که در تحلیلهای پیشین ما دربارهی محدودیتهای سختافزاری و حافظهی GPU در تنظیم دقیق مدلها اشاره کردیم، همیشه فرض بر این بود که سختافزار سد اصلی است؛ اما این پژوهش نشان میدهد یک محدودیت شناختی عمیقتر وجود دارد: فاصله میان ادراک بصری و کاربرد عملی.
برای اندازهگیری این شکاف، پژوهشگران PhysTool-Bench را معرفی کردند؛ نخستین بنچمارکی که بهطور خاص درک و برنامهریزی برای استفاده از ابزارهای فیزیکی را هدف قرار میدهد. این مجموعهداده شامل ۲۵۱۰ پرسوجو در مورد ۲۶۷۸ ابزار در حوزههایی مانند بهداشت، کشاورزی و کارهای الکتریکی است. ارزیابی بر دو محور متمرکز است:
- شناسایی ابزار (Tool Recognition): توانایی تشخیص تمام ابزارهای فیزیکی در یک صحنه.
- برنامهریزی متوالی (Sequential Planning): توانایی نقشهبرداری ابزارها برای یک توالی خاص بر اساس بافت بصری.
در میان ۱۳ مدل چندوجهی (Multimodal) آزمایششده، Gemini-3.1-Pro بهترین عملکرد را داشت، اما حتی این مدل تنها ۵۸.۷ درصد از ابزارها را در یک صحنه شناسایی کرد.
طبق گزارش این پژوهش، افت شدید از ۵۸.۷ درصد شناسایی به ۲۱ درصد تکمیل، نشاندهندهی یک شکست سیستمیک است: مدلهای زبانی بزرگ (LLM) فاقد «عقل سلیم کاربردی» هستند. گلوگاه اصلی تنها ادراک بصری نیست، بلکه نقشهبرداری معنایی است که باید «دیدن یک آچار» را به «استفاده از آن برای باز کردن یک پیچ خاص» تبدیل کند. این یعنی مقیاسگذاری پارامترها یا آموزش روی تصاویر بیشتر کافی نیست و هوش مصنوعی تجسمیافته (Embodied AI) نیازمند تغییری بنیادین در درک فیزیک و کاربرد اشیاء است.
گام بعدی شما
- بررسی احتمال استفاده از دادههای سنتتیک (Synthetic Data) تولیدشده توسط موتورهای فیزیکی برای پر کردن این شکاف کاربردی.
- دنبال کردن تلاشها برای ادغام «مدلهای جهان» (World Models) در معماری MLLMها برای دستیابی به استدلال فضایی-کاربردی.
اما این چالش تنها بخشی از مسیر است؛ اثر این محدودیتها بر آیندهی رباتهای انساننما را در گزارش بعدی بررسی خواهیم کرد.


گفتگو