دوران اتکای مطلق به دیکشنریهای دستی برای آموزش رباتها به پایان رسیده است. تصور کنید مدلی که هرگز یک محیط سهبعدی را ندیده، بتواند با دقت ۹۶ درصد، اشیاء یک محیط را به دستهبندیهای استاندارد علمی متصل کند.
این پیشرفت در حوزه مبنیسازی (Grounding) رخ داده است؛ یعنی ایجاد پیوند میان نمادهای زبانی و اشیاء واقعی در محیط. همانطور که در تحلیل قبلی ما دربارهی امنیت مدلهای بازمتن و اثرات منشأ دادهها اشاره کردیم، درک ساختار متادیتای یک صحنه دیجیتال، کلید استخراج معناست.
به نقل از پژوهشی که در ۹ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، Jiangtao Shuai و همکارانش این رویکرد را روی یک صحنه آشپزخانه شامل ۱۲۵ شیء با استفاده از SOMA-HOME Ontology (هستیشناسی SOMA-HOME) آزمایش کردند. نتایج بهدستآمده بر اساس نوع نامگذاری اشیاء متفاوت بود:
- نامهای توصیفی: ۹۰ تا ۹۶ درصد دقت
- نامهای اختصاری: ۴۹ تا ۸۹ درصد دقت
- نامهای مبهم (با پرامپتهای تقویتشده با متن): تا ۴۸ درصد دقت
طبق اعلام نویسندگان مقاله، مطالعه حذف ویژگیها (Ablation Study) نشان داد که مدل زبانی بزرگ (LLM) اصلاً اشیاء سهبعدی را به معنای هندسی «نمیبیند». در واقع، مدل از نشانههای معنایی در گراف صحنه (Scene Graph)، مانند نامهای همتراز و مسیرهای والد استفاده میکند. این بهرهگیری از ساختارهای گرافی برای استخراج معنا، یادآور موفقیتهای مشابه در حوزههای دیگر است؛ بهگونهای که در پروژه Graph2Idea نیز استفاده از گرافهای دانش توانست نرخ نوآوری ایدههای علمی را ارتقا دهد. وقتی این نشانهها حذف شدند، دقت مدل به ۰ تا ۶ درصد سقوط کرد و تکیه بر هندسه بهتنهایی تنها ۴ تا ۱۷ درصد دقت داشت.
تحلیل ما نشان میدهد که این یافته، فرضیه نیاز به برچسبگذاریهای گرانقیمت یا آموزشهای تخصصی را برای دستیابی به مبنیسازی با دقت بالا میشکند. «هوش» در این فرآیند، نه در درک مختصات مکانی، بلکه در توانایی مدل در تحلیل سلسلهمراتب معنایی فایلهای USD (Universal Scene Description) نهفته است.
گام بعدی شما
- بررسی ترکیب نشانههای معنایی با بردار معنایی (Embedding) هندسی برای عبور از سد ۴۸ درصدی در داراییهای کاملاً بینام.
- آزمایش مدلهای استدلالی در تحلیل گرافهای صحنه پیچیدهتر برای کاهش خطای نامهای اختصاری.
اما تأثیر این رویکرد بر سرعت استنتاج در محیطهای پویا، موضوع بحث بعدی ما خواهد بود.
گفتگو