تصور کنید موتورسیکلتی با سرعت ۳۰۰ کیلومتر بر ساعت در پیچهای تند حرکت میکند؛ در این حالت، توازن دینامیکی و مدیریت زاویه خمش بسیار پیچیدهتر از خودروهای چهارچرخ است. اگر هنوز تصور میکنید کنترل این پایداری با الگوریتمهای سادهی هوش مصنوعی ممکن است، باید بدانید که پیچیدگیهای فیزیکی دوچرخه، هرگونه خطای کوچک در فرمان یا گاز را به سقوط سریع تبدیل میکند.
به نقل از پژوهشی که در ۹ ژوئن ۲۰۲۶ منتشر شد، محققان برای حل این چالش از شبیهساز VRider SBK (یک محیط شبیهسازی دقیق فیزیکی بر پایه Unity) استفاده کردند تا نخستین خطمبنای (Baseline) آموزش عامل (Agent)های هوش مصنوعی در مسابقات موتورسیکلت را ایجاد کنند. طبق گزارش منتشرشده در arxiv.org، مدلهای استاندارد یادگیری تقویتشده (Reinforcement Learning) معمولاً در مواجهه با این پیچیدگیها شکست میخورند، مگر اینکه یک انسان بهصورت دستی یک «برنامه آموزشی» (Curriculum) طراحی کند؛ فرآیندی که هم زمانبر است و هم اغلب بهینه نیست.
همانطور که در تحلیلهای قبلی ما دربارهی شکاف میان شبیهسازی و واقعیت (Sim-to-Real) اشاره کردیم، حذف مداخلات انسانی در طراحی مراحل یادگیری، کلید دستیابی به رفتار طبیعیتر در سیستمهای فیزیکی است. در این پژوهش، راهکار ارائه شده ادغام Soft Actor-Critic (SAC) با یادگیری تقویتشده عمیق با برنامه آموزشی خودگردان (SPDL) است. این ساختار ترکیبی به عامل اجازه میدهد تا بر اساس عملکرد فعلی خود، وظایفی با دشواری افزایشی را بهصورت پویا تولید کند.
جزئیات فنی این سامانه به شرح زیر است:
- فضای وضعیت (State Space): ادغام ویژگیهای حسگرهای داخلی، تاریخچه زاویه خمش و ویژگیهای جهانی پیست از طریق نقاط مسیر.
- سیگنال پاداش (Reward Signal): یک تابع شکلیافته که پیشروی رو به جلو را در اولویت قرار داده و رفتارهای منجر به ناپایداری را جریمه میکند.
- ارزیابی: آزمایشهای اولیه روی مدلهای مختلف موتورسیکلت و پیستهای متنوع.
از منظر فنی، این چرخش نشان میدهد که برای تسلط بر سیستمهای فیزیکی غیرخطی و با ابعاد بالا، تولید خودکار برنامه آموزشی ضروری است. با حذف انسان از حلقه مقیاسبندی وظایف، این سیستم به کارایی آموزشی بالاتر و پایداری رانندگی برتری نسبت به مدل SAC بهتنهایی دست یافته است. اگرچه درصد دقیق کاهش زمان دور (Lap-time) در مقاله披露 نشده، اما پیشرفت عملکردی، گامی مهم بهسوی رقابتهای خودران دوچرخه است.
گام بعدی شما
- بررسی مستندات شبیهساز VRider SBK برای درک نحوه مدلسازی نیروهای گریز از مرکز در موتورسیکلتها.
- مطالعه معماری SPDL برای بهکارگیری در سایر سیستمهای رباتیکی که نیاز به یادگیری مرحلهبهمرحله دارند.
- رصد نتایج انتقال این وزنهای آموزشدیده از شبیهساز به سختافزار واقعی در پیستهای کنترلشده.
اما آیا این مدلها میتوانند در دنیای واقعی و با متغیرهای پیشبینینشده دوام بیاورند؟ پاسخ این سوال در تحلیل ما دربارهی چالشهای Sim-to-Real نهفته است.
گفتگو