اگر در حال استقرار مدلهای VLA هستید، میدانید که این سیستمها در مواجهه با حالتهای غیرمنتظره و «خارج از محدوده» (off-nominal) بهسرعت متوقف میشوند. تصور کنید رباتی که در اجرای یک دستور ساده شکست میخورد، بهجای اصلاح مسیر، در یک حلقه از خطاهای تکراری گرفتار شود؛ این همان بنبستی است که ReCoVLA قصد عبور از آن را دارد.
همانطور که در تحلیلهای پیشین ما دربارهی شکنندگی مدلهای End-to-End اشاره کردیم، اتکای کامل به یک سیاست واحد برای همهی حالتها ریسک بالایی دارد. در ۹ ژوئن ۲۰۲۶، پژوهشگران متدی را منتشر کردند که در آن تشخیص سطح بالای شکست از کنترل اصلاحی سطح پایین جداسازی شده است تا ربات بتواند در لحظهی خطا، استراتژی خود را تغییر دهد.
طبق اعلام پژوهشگران در گزارش arxiv.org، مدل ReCoVLA (Residual Recovery VLA) سیاستهای پیشآموزشدیده Vision-Language-Action (VLA) را منجمد (Frozen) نگه میدارد تا پایداری سیستم حفظ شود. در این سازه، مدلهای چندوجهی (Vision-Language Models - VLM) بهجای تولید مستقیم اکشنها، به عنوان یک «انتخابگر پاداش معنایی» عمل میکنند که:
- حالت دقیق شکست و مرحلهی بازیابی را پیشبینی میکند.
- یک ماسک پاداش (Reward Mask) ساختاریافته برای آموزش سیاست باقیمانده (Residual Policy) در محیط شبیهسازی ایجاد میکند.
- استقرار بدوننمونه (Zero-shot) روی سختافزارهای فیزیکی را ممکن میسازد.
بر اساس مستندات این پژوهش، این رویکرد باعث شد میانگین موفقیت در شبیهسازی از ۳۶.۷ درصد (در مدل پایه $\pi_{0.5}$) به ۶۶.۷ درصد جهش یابد. همچنین در آزمونهای فیزیکی sim-to-real، نرخ موفقیت ۶۱.۷ درصدی به دست آمد.
این تغییر معماری — یعنی استفاده از VLM برای تدوین پاداش بهجای اجرای مستقیم — دقیقاً نقطه ضعف مدلهای VLA سرتاسری را هدف قرار میدهد. با ایزوله کردن منطق بازیابی در یک سیاست باقیمانده، سیستم نسبت به مدل VLA زیربنایی مستقل میشود و توسعهدهندگان میتوانند مدل پایه را بدون نیاز به طراحی مجدد مکانیسم بازیابی، تعویض کنند.
گام بعدی شما
- بررسی مستندات ReCoVLA برای درک نحوهی پیادهسازی ماسکهای پاداش معنایی.
- تحلیل اثر جداسازی تشخیص خطا از کنترل در کاهش نرخ شکست (Failure Rate) پروژههای رباتیک خود.
- دنبال کردن ادغام این رویکرد در مدلهای بنیادی رباتیک در مقیاس بزرگتر برای سنجش تعمیمپذیری در محیطهای غیرساختارمند.
اما اثر این جداسازی بر کاهش هزینههای محاسباتی در لبه، ابعادی پیچیدهتر دارد — به تحلیل ما دربارهی بهینهسازی استنتاج در سختافزارهای رباتیک مراجعه کنید.
گفتگو