PhysTool-Bench: شکست ۷۹ درصدی Gemini-3.1-Pro در استفاده از ابزارهای فیزیکی

اگر تصور می‌کنید مدل‌های چندوجهی اکنون آماده‌اند تا ربات‌ها را در محیط‌های پیچیده مدیریت کنند، اعداد جدید چیز دیگری می‌گویند. باید بدانید که شکاف میان «دیدن» و «انجام دادن» در هوش مصنوعی عمیق‌تر از آن است که با افزایش داده‌های تصویری پر شود.

به نقل از گزارشی که در ۱۰ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، مدل Gemini-3.1-Pro تنها توانست ۲۱ درصد از پرس‌وجوهای پایان-به-پایان را در یک بنچمارک جدید به نام PhysTool-Bench تکمیل کند.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی محدودیت‌های سخت‌افزاری و حافظه‌ی GPU در تنظیم دقیق مدل‌ها اشاره کردیم، همیشه فرض بر این بود که سخت‌افزار سد اصلی است؛ اما این پژوهش نشان می‌دهد یک محدودیت شناختی عمیق‌تر وجود دارد: فاصله میان ادراک بصری و کاربرد عملی.

برای اندازه‌گیری این شکاف، پژوهشگران PhysTool-Bench را معرفی کردند؛ نخستین بنچمارکی که به‌طور خاص درک و برنامه‌ریزی برای استفاده از ابزارهای فیزیکی را هدف قرار می‌دهد. این مجموعه‌داده شامل ۲۵۱۰ پرس‌وجو در مورد ۲۶۷۸ ابزار در حوزه‌هایی مانند بهداشت، کشاورزی و کارهای الکتریکی است. ارزیابی بر دو محور متمرکز است:

شناسایی ابزار (Tool Recognition): توانایی تشخیص تمام ابزارهای فیزیکی در یک صحنه.
برنامه‌ریزی متوالی (Sequential Planning): توانایی نقشه‌برداری ابزارها برای یک توالی خاص بر اساس بافت بصری.

در میان ۱۳ مدل چندوجهی (Multimodal) آزمایش‌شده، Gemini-3.1-Pro بهترین عملکرد را داشت، اما حتی این مدل تنها ۵۸.۷ درصد از ابزارها را در یک صحنه شناسایی کرد.

طبق گزارش این پژوهش، افت شدید از ۵۸.۷ درصد شناسایی به ۲۱ درصد تکمیل، نشان‌دهنده‌ی یک شکست سیستمیک است: مدل‌های زبانی بزرگ (LLM) فاقد «عقل سلیم کاربردی» هستند. گلوگاه اصلی تنها ادراک بصری نیست، بلکه نقشه‌برداری معنایی است که باید «دیدن یک آچار» را به «استفاده از آن برای باز کردن یک پیچ خاص» تبدیل کند. این یعنی مقیاس‌گذاری پارامترها یا آموزش روی تصاویر بیشتر کافی نیست و هوش مصنوعی تجسم‌یافته (Embodied AI) نیازمند تغییری بنیادین در درک فیزیک و کاربرد اشیاء است.

گام بعدی شما

بررسی احتمال استفاده از داده‌های سنتتیک (Synthetic Data) تولیدشده توسط موتورهای فیزیکی برای پر کردن این شکاف کاربردی.
دنبال کردن تلاش‌ها برای ادغام «مدل‌های جهان» (World Models) در معماری MLLMها برای دستیابی به استدلال فضایی-کاربردی.

اما این چالش تنها بخشی از مسیر است؛ اثر این محدودیت‌ها بر آینده‌ی ربات‌های انسان‌نما را در گزارش بعدی بررسی خواهیم کرد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

شناسایی ابزار (Tool Recognition): توانایی تشخیص تمام ابزارهای فیزیکی در یک صحنه.
برنامه‌ریزی متوالی (Sequential Planning): توانایی نقشه‌برداری ابزارها برای یک توالی خاص بر اساس بافت بصری.

گام بعدی شما

بررسی احتمال استفاده از داده‌های سنتتیک (Synthetic Data) تولیدشده توسط موتورهای فیزیکی برای پر کردن این شکاف کاربردی.
دنبال کردن تلاش‌ها برای ادغام «مدل‌های جهان» (World Models) در معماری MLLMها برای دستیابی به استدلال فضایی-کاربردی.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

PhysTool-Bench: شکست ۷۹ درصدی Gemini-3.1-Pro در استفاده از ابزارهای فیزیکی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

PhysTool-Bench: شکست ۷۹ درصدی Gemini-3.1-Pro در استفاده از ابزارهای فیزیکی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

PhysTool-Bench: شکست ۷۹ درصدی Gemini-3.1-Pro در استفاده از ابزارهای فیزیکی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

PhysTool-Bench: شکست ۷۹ درصدی Gemini-3.1-Pro در استفاده از ابزارهای فیزیکی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران