ترکیب SPDL و SAC: حذف طراحی دستی برنامه‌ی آموزشی در موتورسیکلت‌های خودران

تصور کنید موتورسیکلتی با سرعت ۳۰۰ کیلومتر بر ساعت در پیچ‌های تند حرکت می‌کند؛ در این حالت، توازن دینامیکی و مدیریت زاویه خمش بسیار پیچیده‌تر از خودروهای چهارچرخ است. اگر هنوز تصور می‌کنید کنترل این پایداری با الگوریتم‌های ساده‌ی هوش مصنوعی ممکن است، باید بدانید که پیچیدگی‌های فیزیکی دوچرخه، هرگونه خطای کوچک در فرمان یا گاز را به سقوط سریع تبدیل می‌کند.

به نقل از پژوهشی که در ۹ ژوئن ۲۰۲۶ منتشر شد، محققان برای حل این چالش از شبیه‌ساز VRider SBK (یک محیط شبیه‌سازی دقیق فیزیکی بر پایه Unity) استفاده کردند تا نخستین خط‌مبنای (Baseline) آموزش عامل (Agent)های هوش مصنوعی در مسابقات موتورسیکلت را ایجاد کنند. طبق گزارش منتشرشده در arxiv.org، مدل‌های استاندارد یادگیری تقویت‌شده (Reinforcement Learning) معمولاً در مواجهه با این پیچیدگی‌ها شکست می‌خورند، مگر اینکه یک انسان به‌صورت دستی یک «برنامه آموزشی» (Curriculum) طراحی کند؛ فرآیندی که هم زمان‌بر است و هم اغلب بهینه نیست.

همان‌طور که در تحلیل‌های قبلی ما درباره‌ی شکاف میان شبیه‌سازی و واقعیت (Sim-to-Real) اشاره کردیم، حذف مداخلات انسانی در طراحی مراحل یادگیری، کلید دستیابی به رفتار طبیعی‌تر در سیستم‌های فیزیکی است. در این پژوهش، راهکار ارائه شده ادغام Soft Actor-Critic (SAC) با یادگیری تقویت‌شده عمیق با برنامه آموزشی خودگردان (SPDL) است. این ساختار ترکیبی به عامل اجازه می‌دهد تا بر اساس عملکرد فعلی خود، وظایفی با دشواری افزایشی را به‌صورت پویا تولید کند.

جزئیات فنی این سامانه به شرح زیر است:

فضای وضعیت (State Space): ادغام ویژگی‌های حس‌گرهای داخلی، تاریخچه زاویه خمش و ویژگی‌های جهانی پیست از طریق نقاط مسیر.
سیگنال پاداش (Reward Signal): یک تابع شکل‌یافته که پیشروی رو به جلو را در اولویت قرار داده و رفتارهای منجر به ناپایداری را جریمه می‌کند.
ارزیابی: آزمایش‌های اولیه روی مدل‌های مختلف موتورسیکلت و پیست‌های متنوع.

از منظر فنی، این چرخش نشان می‌دهد که برای تسلط بر سیستم‌های فیزیکی غیرخطی و با ابعاد بالا، تولید خودکار برنامه آموزشی ضروری است. با حذف انسان از حلقه مقیاس‌بندی وظایف، این سیستم به کارایی آموزشی بالاتر و پایداری رانندگی برتری نسبت به مدل SAC به‌تنهایی دست یافته است. اگرچه درصد دقیق کاهش زمان دور (Lap-time) در مقاله披露 نشده، اما پیشرفت عملکردی، گامی مهم به‌سوی رقابت‌های خودران دوچرخه است.

گام بعدی شما

بررسی مستندات شبیه‌ساز VRider SBK برای درک نحوه مدل‌سازی نیروهای گریز از مرکز در موتورسیکلت‌ها.
مطالعه معماری SPDL برای به‌کارگیری در سایر سیستم‌های رباتیکی که نیاز به یادگیری مرحله‌به‌مرحله دارند.
رصد نتایج انتقال این وزن‌های آموزش‌دیده از شبیه‌ساز به سخت‌افزار واقعی در پیست‌های کنترل‌شده.

اما آیا این مدل‌ها می‌توانند در دنیای واقعی و با متغیرهای پیش‌بینی‌نشده دوام بیاورند؟ پاسخ این سوال در تحلیل ما درباره‌ی چالش‌های Sim-to-Real نهفته است.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

جزئیات فنی این سامانه به شرح زیر است:

فضای وضعیت (State Space): ادغام ویژگی‌های حس‌گرهای داخلی، تاریخچه زاویه خمش و ویژگی‌های جهانی پیست از طریق نقاط مسیر.
سیگنال پاداش (Reward Signal): یک تابع شکل‌یافته که پیشروی رو به جلو را در اولویت قرار داده و رفتارهای منجر به ناپایداری را جریمه می‌کند.
ارزیابی: آزمایش‌های اولیه روی مدل‌های مختلف موتورسیکلت و پیست‌های متنوع.

گام بعدی شما

بررسی مستندات شبیه‌ساز VRider SBK برای درک نحوه مدل‌سازی نیروهای گریز از مرکز در موتورسیکلت‌ها.
مطالعه معماری SPDL برای به‌کارگیری در سایر سیستم‌های رباتیکی که نیاز به یادگیری مرحله‌به‌مرحله دارند.
رصد نتایج انتقال این وزن‌های آموزش‌دیده از شبیه‌ساز به سخت‌افزار واقعی در پیست‌های کنترل‌شده.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ترکیب SPDL و SAC: حذف طراحی دستی برنامه‌ی آموزشی در موتورسیکلت‌های خودران

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ترکیب SPDL و SAC: حذف طراحی دستی برنامه‌ی آموزشی در موتورسیکلت‌های خودران

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ترکیب SPDL و SAC: حذف طراحی دستی برنامه‌ی آموزشی در موتورسیکلت‌های خودران

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ترکیب SPDL و SAC: حذف طراحی دستی برنامه‌ی آموزشی در موتورسیکلت‌های خودران

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران