گروهی از پژوهشگران فریمورک Multi-ORFT را برای بهینهسازی پایدار یادگیری تقویتی آنلاین برنامهریزان انتشار چندعاملی در سناریوهای رانندگی مشارکتی ارائه دادهاند. این رویکرد که در وبسایت arxiv.org منتشر شده، پیشآموزش انتشار مبتنی بر صحنه را با پسآموزش مبتنی بر تقویت ترکیب میکند تا ایمنی و کارایی ترافیک را در شبیهسازیهای حلقهبسته بهبود بخشد.
چالش اصلی در رانندگی خودران چندعاملی، تولید مسیرهای واقعگرایانه و چندوجهی با حفظ سازگاری صحنه و همراستایی با اهداف حلقهبسته است. برنامهریزان انتشار موجود میتوانند رفتارهای پیچیده را از نمایشها مدلسازی کنند، اما اغلب با همراستایی صحنه و بهینهسازی پایدار آنلاین در محیطهای واکنشی دستوپنجه نرم میکنند.
Multi-ORFT این محدودیتها را از طریق معماری دو مرحلهای برطرف میکند. در مرحله پیشآموزش، برنامهریز از توجه متقابل بینعاملی، توجه متقاطع و شرطیسازی صحنه مبتنی بر AdaLN-Zero استفاده میکند تا سازگاری صحنه و چسبیدن به جاده مسیرهای مشترک را افزایش دهد. در پسآموزش، پژوهشگران فرآیند تصمیمگیری مارکوف دو سطحی را فرمولبندی کردند که احتمالهای درستنمایی کرنل معکوس گامبهگام را برای بهینهسازی آنلاین نمایان میسازد. این با پاداشهای متراکم در سطح مسیر و بهینهسازی سیاست نسبی گروهی با دروازه واریانس (VG-GRPO) ترکیب شده تا پویایی آموزش پایدار بماند.
{{img:0}}
در معیار حلقهبسته Waymo Open Motion Dataset، فریمورک Multi-ORFT بهبودهای چشمگیری نسبت به پایه پیشآموزششده نشان میدهد. نرخ تصادف از ۲.۰۴ به ۱.۸۹ درصد کاهش یافته، نرخ خروج از جاده از ۱.۶۸ به ۱.۳۶ درصد کاهش پیدا کرده، و سرعت متوسط از ۸.۳۶ به ۸.۶۱ متر بر ثانیه افزایش یافته است. این روش همچنین در معیارهای اصلی ایمنی و کارایی از پایههای متنباز قوی از جمله SMART-large، SMART-tiny-CLSFT و VBD بهتر عمل میکند.
این یافتهها نشان میدهد که ترکیب حذف نویز سازگار با صحنه و بهینهسازی پایدار سیاست انتشار آنلاین میتواند قابلیت اطمینان سیستمهای رانندگی مشارکتی حلقهبسته را بهطور قابلتوجهی بهبود بخشد. این رویکرد نشاندهنده پیشرفتی عملی برای برنامهریزان وسایل نقلیه خودران است که باید تصمیمات را در سناریوهای ترافیکی پیچیده هماهنگ کنند.
پژوهشگران این کار را در ۱۳ آوریل ۲۰۲۶ ارائه دادند و نسخه بازنگریشدهای در ۱۴ آوریل_follow کرد که نشاندهنده پالایش مداوم روششناسی است.

گفتگو