DARP: افزایش ۴۶ درصدی تعمیم‌پذیری در یادگیری تقلیدی با رویکرد بازیابی محلی

خطاهای انباشته در زمان استقرار، نقطه شکست مدل‌های پارامتری در یادگیری تقلیدی (Imitation Learning) هستند. اگر در حال توسعه‌ی عامل‌های رباتیک هستید، می‌دانید که کوچک‌ترین انحراف مدل از مسیر آموزش‌دیده، به سرعت به یک شکست کامل در محیط واقعی تبدیل می‌شود.

سیاست‌های بازیابی آگاه از تفاوت (Difference-Aware Retrieval Policies) یا DARP، راهکاری مقیاس‌پذیر برای حل این بحران ارائه می‌دهد. این رویکرد به جای تکیه بر نگاشت‌های سراسری، بر بازیابی محلی تمرکز می‌کند تا شکنندگی عامل‌ها در مواجهه با محیط‌های ناآشنا را برطرف کند.

سنتِ شبیه‌سازی رفتار (Behavior Cloning) بر سیاست‌های سراسری تکیه دارد که هنگام ورود عامل به حالت‌های خارج از توزیع (Out-of-distribution states)، دچار مشکل می‌شوند. بر اساس پژوهشی که در ۹ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، این شکست به این دلیل رخ می‌دهد که مدل‌های استاندارد نمی‌توانند داده‌های آموزشی ثابت را به خطاهای پویا در زمان استنتاج (Inference) واقعی تعمیم دهند.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی چالش‌های تعمیم‌پذیری در مدل‌های رباتیک اشاره کردیم، مشکل اصلی در فقدان انعطاف‌پذیری مدل‌ها در لحظه است. DARP با بازتعریف مسئله‌ی تقلید از طریق یک چارچوب بازیابی نیمه‌پارامتری (Semi-parametric retrieval)، این گسست را پر می‌کند. در این مدل، پیش‌بینی اقدامات به جای یک سیاست واحد، بر سه محور استوار است:

$k$-نزدیک‌ترین همسایه‌ها از دموهای متخصص.
اقدامات متناظر متخصص برای آن همسایه‌ها.
بردارهای فاصله نسبی بین حالت پرس‌وجو و حالت‌های همسایه.

طبق مستندات این تحقیق، این چارچوب به هیچ داده‌ی اضافی، بازخورد آنلاین متخصص یا دانش خاصِ تکلیف نیاز ندارد. پژوهشگران بهبودهای مستمری بین ۱۵ تا ۴۶ درصد را نسبت به شبیه‌سازی رفتار استاندارد در دامنه‌های مختلف، از جمله کنترل پیوسته و ویژگی‌های بصری با ابعاد بالا در دست‌ورزی رباتیک، گزارش کرده‌اند.

این دستاورد، فرضیات رایج در این حوزه را تغییر می‌دهد؛ چرا که مجموعه‌ی دموها را نه به عنوان یک هدف آموزشی ایستا، بلکه به عنوان یک مرجع پویا می‌بیند. با بهره‌گیری از ساختارهای همسایگی محلی، DARP اساساً مشکل خطای انباشته را که سال‌ها گریبان‌کش شبیه‌سازی رفتار بود، کاهش می‌دهد.

گام بعدی شما

ارزیابی کد و دموهای منتشرشده بر روی مجموعه‌داده‌های اختصاصی
بررسی تأثیر ساختار همسایگی بر کاهش خطای استنتاج در محیط‌های دینامیک
تحلیل تأخیر بازیابی در سیستم‌های سخت‌افزاری با محدودیت محاسباتی

اما چالش اصلی، مقیاس‌پذیری این مدل در محیط‌های چند-تکلیف است؛ در گزارش‌های آتی به بررسی تنگناهای محاسباتی این رویکرد خواهیم پرداخت.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

$k$-نزدیک‌ترین همسایه‌ها از دموهای متخصص.
اقدامات متناظر متخصص برای آن همسایه‌ها.
بردارهای فاصله نسبی بین حالت پرس‌وجو و حالت‌های همسایه.

گام بعدی شما

ارزیابی کد و دموهای منتشرشده بر روی مجموعه‌داده‌های اختصاصی
بررسی تأثیر ساختار همسایگی بر کاهش خطای استنتاج در محیط‌های دینامیک
تحلیل تأخیر بازیابی در سیستم‌های سخت‌افزاری با محدودیت محاسباتی

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

DARP: افزایش ۴۶ درصدی تعمیم‌پذیری در یادگیری تقلیدی با رویکرد بازیابی محلی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

DARP: افزایش ۴۶ درصدی تعمیم‌پذیری در یادگیری تقلیدی با رویکرد بازیابی محلی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

DARP: افزایش ۴۶ درصدی تعمیم‌پذیری در یادگیری تقلیدی با رویکرد بازیابی محلی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

DARP: افزایش ۴۶ درصدی تعمیم‌پذیری در یادگیری تقلیدی با رویکرد بازیابی محلی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران