باید بپذیریم که مدلهای چندوجهی (Multimodal) فعلی، با وجود قدرت پردازش تصویر، در درک جهانی فضای فیزیکی «کور» هستند. آنها تنها میبینند، اما نمیتوانند نقشهای منسجم از محیط بسازند؛ AlloSpatial این شکاف را با ترجمه دیدهای محدودِ «خود-محور» به نقشههای ساختارمند «جهان-محور» پر میکند.
طبق گزارش فنی منتشرشده در ۹ ژوئن ۲۰۲۶ در arxiv.org، این چهارچوب عاملمحور (Agentic) به مدلها اجازه میدهد تا به جای حدسهای بصری متزلزل، بر پیشفرضهای هندسی قابلتأیید تکیه کنند. این پیشرفت، گلوگاه همیشگی مدلهای بنیادی در حفظ یک نقشه جهانی هنگام حرکت در محیط را هدف قرار داده است.
همانطور که در تحلیل قبلی ما دربارهی ViSRA و رویکرد آن به استدلال سهبعدی اشاره کردیم، تمرکز اکنون از پردازش خام بصری به سمت فرآیند نقشهبرداری شناختی تغییر یافته است. بر اساس مستندات این پروژه، AlloSpatial از دو سازوکار اصلی بهره میبرد:
- World2Mind: یک محیط آزمایشی شناختی که مشاهدات را به «درختهای مکانی جهانمحور» (ASTs) و نقشههای مسیر تبدیل میکند. این ساختار امکان پرسوجو درباره توپولوژی اشیاء و روابط هندسی را فراهم میکند.
- Spatial Reasoning Harness: سیستمی برای ارزیابی استفاده از ابزار و داوری بین معنا و هندسه؛ تا مدل در زمان دسترسی به دادههای هندسی، به دادههای بصری نویزدار تکیه نکند.
پژوهشگران این فرآیند را در مدل Qwen3-VL با استفاده از یادگیری تقویتی (Reinforcement Learning) در مرحله شروعِ سرد پیادهسازی کردند. نتایج بهدستآمده در بنچمارکهای VSI-Bench و MindCube نشان میدهد که AlloSpatial دقت مدلهای اختصاصی را در محیطهای بدون آموزش، بین ۵ تا ۱۸٪ افزایش داده است. نکته کلیدی این است که ASTها اجازه دادند استدلال مکانی حتی در صورت حذف کامل ورودیهای بصری، در سطح بالایی باقی بماند.
این دستاورد فرضیات پیشین در این میدان را میشکند و ثابت میکند هوش مکانی صرفاً نتیجهی مقیاسپذیری پارامترها یا دادهها نیست، بلکه نیازمند پیادهسازی پیشفرضهای شناختی ساختارمند است. این تمرکز بر ساختارهای شناختی به جای تکیه بر دادههای خام، یادآور رویکردی است که در پروژه DiScO برای ارتقای استدلال ریاضی از طریق متنوعسازی طرحوارههای تفکر به کار گرفته شد. با جداسازی «مشاهده» از «بازنمایی»، مشخص شد که عاملها برای ناوبری در دنیای واقعی، بیش از آنکه به دوربین نیاز داشته باشند، به یک «نقشه داخلی» محتاجاند.
گام بعدی شما
- بررسی وضعیت ادغام رویکرد RL در مدلهای عمومیتر برای ناوبری رباتیک.
- مطالعه مستندات AST برای درک نحوه تبدیل دادههای بصری به گرافهای هندسی.
- تحلیل اثر جداسازی بازنمایی بر کاهش نرخ توهم (Hallucination) مکانی.
اما این تنها آغاز ماجراست؛ اثر موجگونهی این تصمیم بر اکوسیستم مدلهای بازمتن را در گزارش بعدی بررسی خواهیم کرد.
گفتگو