تصور کنید خودرویی که در سطح استدلال با کلمات فکر میکند اما در سطح اجرا با مختصات عمل میکند؛ دقیقاً در همین شکاف است که تصادفات رخ میدهند.
مدلهای VLA (Vision-Language-Action) فعلی با یک تضاد بنیادین دستوپنجه نرم میکنند: زنجیره تفکر (Chain-of-Thought) متنی فاقد ساختار مکانی است و استدلالهای نهفته نیز برای تولید مستقیم عمل بیش از حد مبهماند. همانطور که در تحلیل قبلی ما دربارهی GuardAD و استفاده از منطق مارکوف برای کاهش نرخ تصادفات اشاره کردیم، صنعت اکنون به سمت بازنماییهای میانی ساختاریافته حرکت میکند تا ایمنی را تضمین کند.
به نقل از مقالهای که در ۱۲ مه ۲۰۲۶ در arxiv.org منتشر شد، چارچوب CoWorld-VLA از یک سیستم استدلال جهانی چند-متخصص استفاده میکند که دادهها را به چهار نوع توکن تخصصی تبدیل میکند:
• توکنهای تعامل معنایی (Semantic interaction) برای مدلسازی قصد
• توکنهای ساختار هندسی (Geometric structure) برای چیدمان مکانی
• توکنهای تکامل پویا (Dynamic evolution) برای تغییرات زمانی آینده
• توکنهای مسیر خودرو (Ego trajectory) برای اهداف رفتاری
طبق گزارش پژوهشگران، این سیستم از یک برنامهریز ادغام چند-متخصص مبتنی بر مدل انتشار (Diffusion Model) برای تولید مسیرهای پیوسته استفاده میکند که کارایی آن در بنچمارک NAVSIM v1 به اثبات رسیده است. نتایج نشان میدهد که مدل در هر دو شاخص اجتناب از تصادف و دقت مسیر، عملکرد قدرتمندی دارد.
این رویکرد فرضیه قدیمی را که استدلال باید یا کاملاً زبانی باشد یا کاملاً نهفته، به چالش میکشد. CoWorld-VLA با ایجاد سیگنالهای شرطی که برای برنامهریز قابل دسترسی است، دادههای جهان را به گونهای پردازش میکند که از نظر ریاضی برای مکانیسمهای ترمز و فرمان کاربردی باشد. این یعنی تبدیل «فهم معنایی» به «اجرای فیزیکی» بدون گم شدن اطلاعات در ترجمه.
گام بعدی شما
- بررسی انتشار کد منبع CoWorld-VLA برای ارزیابی تعمیمپذیری توکنها در محیطهای شهری پیچیده.
- مطالعه مقایسهای بین رویکردهای توکنمحور و رویکردهای End-to-End در رانندگی خودکار.
- دنبال کردن نتایج جدیدتر در بنچمارک NAVSIM برای سنجش نرخ کاهش تصادفات.
اما این تنها بخشی از معماری است؛ تأثیر بهینهسازیهای سختافزاری بر سرعت استنتاج (Inference) این مدلها را در گزارش بعدی بررسی خواهیم کرد.
گفتگو