چگونه توکن‌های تخصصی CoWorld-VLA خطای استدلال در رانندگی خودکار را کاهش می‌دهند؟

تصور کنید خودرویی که در سطح استدلال با کلمات فکر می‌کند اما در سطح اجرا با مختصات عمل می‌کند؛ دقیقاً در همین شکاف است که تصادفات رخ می‌دهند.

مدل‌های VLA (Vision-Language-Action) فعلی با یک تضاد بنیادین دست‌وپنجه نرم می‌کنند: زنجیره تفکر (Chain-of-Thought) متنی فاقد ساختار مکانی است و استدلال‌های نهفته نیز برای تولید مستقیم عمل بیش از حد مبهم‌اند. همان‌طور که در تحلیل قبلی ما درباره‌ی GuardAD و استفاده از منطق مارکوف برای کاهش نرخ تصادفات اشاره کردیم، صنعت اکنون به سمت بازنمایی‌های میانی ساختاریافته حرکت می‌کند تا ایمنی را تضمین کند.

به نقل از مقاله‌ای که در ۱۲ مه ۲۰۲۶ در arxiv.org منتشر شد، چارچوب CoWorld-VLA از یک سیستم استدلال جهانی چند-متخصص استفاده می‌کند که داده‌ها را به چهار نوع توکن تخصصی تبدیل می‌کند:

• توکن‌های تعامل معنایی (Semantic interaction) برای مدل‌سازی قصد
• توکن‌های ساختار هندسی (Geometric structure) برای چیدمان مکانی
• توکن‌های تکامل پویا (Dynamic evolution) برای تغییرات زمانی آینده
• توکن‌های مسیر خودرو (Ego trajectory) برای اهداف رفتاری

طبق گزارش پژوهشگران، این سیستم از یک برنامه‌ریز ادغام چند-متخصص مبتنی بر مدل انتشار (Diffusion Model) برای تولید مسیرهای پیوسته استفاده می‌کند که کارایی آن در بنچمارک NAVSIM v1 به اثبات رسیده است. نتایج نشان می‌دهد که مدل در هر دو شاخص اجتناب از تصادف و دقت مسیر، عملکرد قدرتمندی دارد.

این رویکرد فرضیه قدیمی را که استدلال باید یا کاملاً زبانی باشد یا کاملاً نهفته، به چالش می‌کشد. CoWorld-VLA با ایجاد سیگنال‌های شرطی که برای برنامه‌ریز قابل دسترسی است، داده‌های جهان را به گونه‌ای پردازش می‌کند که از نظر ریاضی برای مکانیسم‌های ترمز و فرمان کاربردی باشد. این یعنی تبدیل «فهم معنایی» به «اجرای فیزیکی» بدون گم شدن اطلاعات در ترجمه.

گام بعدی شما

بررسی انتشار کد منبع CoWorld-VLA برای ارزیابی تعمیم‌پذیری توکن‌ها در محیط‌های شهری پیچیده.
مطالعه مقایسه‌ای بین رویکردهای توکن‌محور و رویکردهای End-to-End در رانندگی خودکار.
دنبال کردن نتایج جدیدتر در بنچمارک NAVSIM برای سنجش نرخ کاهش تصادفات.

اما این تنها بخشی از معماری است؛ تأثیر بهینه‌سازی‌های سخت‌افزاری بر سرعت استنتاج (Inference) این مدل‌ها را در گزارش بعدی بررسی خواهیم کرد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

گام بعدی شما

بررسی انتشار کد منبع CoWorld-VLA برای ارزیابی تعمیم‌پذیری توکن‌ها در محیط‌های شهری پیچیده.
مطالعه مقایسه‌ای بین رویکردهای توکن‌محور و رویکردهای End-to-End در رانندگی خودکار.
دنبال کردن نتایج جدیدتر در بنچمارک NAVSIM برای سنجش نرخ کاهش تصادفات.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه توکن‌های تخصصی CoWorld-VLA خطای استدلال در رانندگی خودکار را کاهش می‌دهند؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه توکن‌های تخصصی CoWorld-VLA خطای استدلال در رانندگی خودکار را کاهش می‌دهند؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه توکن‌های تخصصی CoWorld-VLA خطای استدلال در رانندگی خودکار را کاهش می‌دهند؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه توکن‌های تخصصی CoWorld-VLA خطای استدلال در رانندگی خودکار را کاهش می‌دهند؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران