کاهش ۷.۴ درصدی نرخ تصادف با فریم‌ورک جدید Multi-ORFT در رانندگی خودران چندعاملی

گروهی از پژوهشگران فریم‌ورک Multi-ORFT را برای بهینه‌سازی پایدار یادگیری تقویتی آنلاین برنامه‌ریزان انتشار چندعاملی در سناریوهای رانندگی مشارکتی ارائه داده‌اند. این رویکرد که در وب‌سایت arxiv.org منتشر شده، پیش‌آموزش انتشار مبتنی بر صحنه را با پس‌آموزش مبتنی بر تقویت ترکیب می‌کند تا ایمنی و کارایی ترافیک را در شبیه‌سازی‌های حلقه‌بسته بهبود بخشد.

چالش اصلی در رانندگی خودران چندعاملی، تولید مسیرهای واقع‌گرایانه و چندوجهی با حفظ سازگاری صحنه و هم‌راستایی با اهداف حلقه‌بسته است. برنامه‌ریزان انتشار موجود می‌توانند رفتارهای پیچیده را از نمایش‌ها مدل‌سازی کنند، اما اغلب با هم‌راستایی صحنه و بهینه‌سازی پایدار آنلاین در محیط‌های واکنشی دست‌وپنجه نرم می‌کنند.

Multi-ORFT این محدودیت‌ها را از طریق معماری دو مرحله‌ای برطرف می‌کند. در مرحله پیش‌آموزش، برنامه‌ریز از توجه متقابل بین‌عاملی، توجه متقاطع و شرطی‌سازی صحنه مبتنی بر AdaLN-Zero استفاده می‌کند تا سازگاری صحنه و چسبیدن به جاده مسیرهای مشترک را افزایش دهد. در پس‌آموزش، پژوهشگران فرآیند تصمیم‌گیری مارکوف دو سطحی را فرمول‌بندی کردند که احتمال‌های درست‌نمایی کرنل معکوس گام‌به‌گام را برای بهینه‌سازی آنلاین نمایان می‌سازد. این با پاداش‌های متراکم در سطح مسیر و بهینه‌سازی سیاست نسبی گروهی با دروازه واریانس (VG-GRPO) ترکیب شده تا پویایی آموزش پایدار بماند.

در معیار حلقه‌بسته Waymo Open Motion Dataset، فریم‌ورک Multi-ORFT بهبودهای چشمگیری نسبت به پایه پیش‌آموزش‌شده نشان می‌دهد. نرخ تصادف از ۲.۰۴ به ۱.۸۹ درصد کاهش یافته، نرخ خروج از جاده از ۱.۶۸ به ۱.۳۶ درصد کاهش پیدا کرده، و سرعت متوسط از ۸.۳۶ به ۸.۶۱ متر بر ثانیه افزایش یافته است. این روش همچنین در معیارهای اصلی ایمنی و کارایی از پایه‌های متن‌باز قوی از جمله SMART-large، SMART-tiny-CLSFT و VBD بهتر عمل می‌کند.

این یافته‌ها نشان می‌دهد که ترکیب حذف نویز سازگار با صحنه و بهینه‌سازی پایدار سیاست انتشار آنلاین می‌تواند قابلیت اطمینان سیستم‌های رانندگی مشارکتی حلقه‌بسته را به‌طور قابل‌توجهی بهبود بخشد. این رویکرد نشان‌دهنده پیشرفتی عملی برای برنامه‌ریزان وسایل نقلیه خودران است که باید تصمیمات را در سناریوهای ترافیکی پیچیده هماهنگ کنند.

پژوهشگران این کار را در ۱۳ آوریل ۲۰۲۶ ارائه دادند و نسخه بازنگری‌شده‌ای در ۱۴ آوریل_follow کرد که نشان‌دهنده پالایش مداوم روش‌شناسی است.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

کاهش ۷.۴ درصدی نرخ تصادف با فریم‌ورک جدید Multi-ORFT در رانندگی خودران چندعاملی

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

کاهش ۷.۴ درصدی نرخ تصادف با فریم‌ورک جدید Multi-ORFT در رانندگی خودران چندعاملی

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

کاهش ۷.۴ درصدی نرخ تصادف با فریم‌ورک جدید Multi-ORFT در رانندگی خودران چندعاملی

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

کاهش ۷.۴ درصدی نرخ تصادف با فریم‌ورک جدید Multi-ORFT در رانندگی خودران چندعاملی

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران