خطاهای انباشته در زمان استقرار، نقطه شکست مدلهای پارامتری در یادگیری تقلیدی (Imitation Learning) هستند. اگر در حال توسعهی عاملهای رباتیک هستید، میدانید که کوچکترین انحراف مدل از مسیر آموزشدیده، به سرعت به یک شکست کامل در محیط واقعی تبدیل میشود.
سیاستهای بازیابی آگاه از تفاوت (Difference-Aware Retrieval Policies) یا DARP، راهکاری مقیاسپذیر برای حل این بحران ارائه میدهد. این رویکرد به جای تکیه بر نگاشتهای سراسری، بر بازیابی محلی تمرکز میکند تا شکنندگی عاملها در مواجهه با محیطهای ناآشنا را برطرف کند.
سنتِ شبیهسازی رفتار (Behavior Cloning) بر سیاستهای سراسری تکیه دارد که هنگام ورود عامل به حالتهای خارج از توزیع (Out-of-distribution states)، دچار مشکل میشوند. بر اساس پژوهشی که در ۹ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، این شکست به این دلیل رخ میدهد که مدلهای استاندارد نمیتوانند دادههای آموزشی ثابت را به خطاهای پویا در زمان استنتاج (Inference) واقعی تعمیم دهند.
همانطور که در تحلیلهای پیشین ما دربارهی چالشهای تعمیمپذیری در مدلهای رباتیک اشاره کردیم، مشکل اصلی در فقدان انعطافپذیری مدلها در لحظه است. DARP با بازتعریف مسئلهی تقلید از طریق یک چارچوب بازیابی نیمهپارامتری (Semi-parametric retrieval)، این گسست را پر میکند. در این مدل، پیشبینی اقدامات به جای یک سیاست واحد، بر سه محور استوار است:
- $k$-نزدیکترین همسایهها از دموهای متخصص.
- اقدامات متناظر متخصص برای آن همسایهها.
- بردارهای فاصله نسبی بین حالت پرسوجو و حالتهای همسایه.
طبق مستندات این تحقیق، این چارچوب به هیچ دادهی اضافی، بازخورد آنلاین متخصص یا دانش خاصِ تکلیف نیاز ندارد. پژوهشگران بهبودهای مستمری بین ۱۵ تا ۴۶ درصد را نسبت به شبیهسازی رفتار استاندارد در دامنههای مختلف، از جمله کنترل پیوسته و ویژگیهای بصری با ابعاد بالا در دستورزی رباتیک، گزارش کردهاند.
این دستاورد، فرضیات رایج در این حوزه را تغییر میدهد؛ چرا که مجموعهی دموها را نه به عنوان یک هدف آموزشی ایستا، بلکه به عنوان یک مرجع پویا میبیند. با بهرهگیری از ساختارهای همسایگی محلی، DARP اساساً مشکل خطای انباشته را که سالها گریبانکش شبیهسازی رفتار بود، کاهش میدهد.
گام بعدی شما
- ارزیابی کد و دموهای منتشرشده بر روی مجموعهدادههای اختصاصی
- بررسی تأثیر ساختار همسایگی بر کاهش خطای استنتاج در محیطهای دینامیک
- تحلیل تأخیر بازیابی در سیستمهای سختافزاری با محدودیت محاسباتی
اما چالش اصلی، مقیاسپذیری این مدل در محیطهای چند-تکلیف است؛ در گزارشهای آتی به بررسی تنگناهای محاسباتی این رویکرد خواهیم پرداخت.
گفتگو