سازه ReCoVLA: تبدیل VLM به انتخابگر پاداش برای بازیابی خطاهای رباتیک

اگر در حال استقرار مدل‌های VLA هستید، می‌دانید که این سیستم‌ها در مواجهه با حالت‌های غیرمنتظره و «خارج از محدوده» (off-nominal) به‌سرعت متوقف می‌شوند. تصور کنید رباتی که در اجرای یک دستور ساده شکست می‌خورد، به‌جای اصلاح مسیر، در یک حلقه از خطاهای تکراری گرفتار شود؛ این همان بن‌بستی است که ReCoVLA قصد عبور از آن را دارد.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی شکنندگی مدل‌های End-to-End اشاره کردیم، اتکای کامل به یک سیاست واحد برای همه‌ی حالت‌ها ریسک بالایی دارد. در ۹ ژوئن ۲۰۲۶، پژوهشگران متدی را منتشر کردند که در آن تشخیص سطح بالای شکست از کنترل اصلاحی سطح پایین جداسازی شده است تا ربات بتواند در لحظه‌ی خطا، استراتژی خود را تغییر دهد.

طبق اعلام پژوهشگران در گزارش arxiv.org، مدل ReCoVLA (Residual Recovery VLA) سیاست‌های پیش‌آموزش‌دیده Vision-Language-Action (VLA) را منجمد (Frozen) نگه می‌دارد تا پایداری سیستم حفظ شود. در این سازه، مدل‌های چندوجهی (Vision-Language Models - VLM) به‌جای تولید مستقیم اکشن‌ها، به عنوان یک «انتخابگر پاداش معنایی» عمل می‌کنند که:

حالت دقیق شکست و مرحله‌ی بازیابی را پیش‌بینی می‌کند.
یک ماسک پاداش (Reward Mask) ساختاریافته برای آموزش سیاست باقی‌مانده (Residual Policy) در محیط شبیه‌سازی ایجاد می‌کند.
استقرار بدون‌نمونه (Zero-shot) روی سخت‌افزارهای فیزیکی را ممکن می‌سازد.

بر اساس مستندات این پژوهش، این رویکرد باعث شد میانگین موفقیت در شبیه‌سازی از ۳۶.۷ درصد (در مدل پایه $\pi_{0.5}$) به ۶۶.۷ درصد جهش یابد. همچنین در آزمون‌های فیزیکی sim-to-real، نرخ موفقیت ۶۱.۷ درصدی به دست آمد.

این تغییر معماری — یعنی استفاده از VLM برای تدوین پاداش به‌جای اجرای مستقیم — دقیقاً نقطه ضعف مدل‌های VLA سرتاسری را هدف قرار می‌دهد. با ایزوله کردن منطق بازیابی در یک سیاست باقی‌مانده، سیستم نسبت به مدل VLA زیربنایی مستقل می‌شود و توسعه‌دهندگان می‌توانند مدل پایه را بدون نیاز به طراحی مجدد مکانیسم بازیابی، تعویض کنند.

گام بعدی شما

بررسی مستندات ReCoVLA برای درک نحوه‌ی پیاده‌سازی ماسک‌های پاداش معنایی.
تحلیل اثر جداسازی تشخیص خطا از کنترل در کاهش نرخ شکست (Failure Rate) پروژه‌های رباتیک خود.
دنبال کردن ادغام این رویکرد در مدل‌های بنیادی رباتیک در مقیاس بزرگ‌تر برای سنجش تعمیم‌پذیری در محیط‌های غیرساختارمند.

اما اثر این جداسازی بر کاهش هزینه‌های محاسباتی در لبه، ابعادی پیچیده‌تر دارد — به تحلیل ما درباره‌ی بهینه‌سازی استنتاج در سخت‌افزارهای رباتیک مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

حالت دقیق شکست و مرحله‌ی بازیابی را پیش‌بینی می‌کند.
یک ماسک پاداش (Reward Mask) ساختاریافته برای آموزش سیاست باقی‌مانده (Residual Policy) در محیط شبیه‌سازی ایجاد می‌کند.
استقرار بدون‌نمونه (Zero-shot) روی سخت‌افزارهای فیزیکی را ممکن می‌سازد.

گام بعدی شما

بررسی مستندات ReCoVLA برای درک نحوه‌ی پیاده‌سازی ماسک‌های پاداش معنایی.
تحلیل اثر جداسازی تشخیص خطا از کنترل در کاهش نرخ شکست (Failure Rate) پروژه‌های رباتیک خود.
دنبال کردن ادغام این رویکرد در مدل‌های بنیادی رباتیک در مقیاس بزرگ‌تر برای سنجش تعمیم‌پذیری در محیط‌های غیرساختارمند.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سازه ReCoVLA: تبدیل VLM به انتخابگر پاداش برای بازیابی خطاهای رباتیک

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سازه ReCoVLA: تبدیل VLM به انتخابگر پاداش برای بازیابی خطاهای رباتیک

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سازه ReCoVLA: تبدیل VLM به انتخابگر پاداش برای بازیابی خطاهای رباتیک

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سازه ReCoVLA: تبدیل VLM به انتخابگر پاداش برای بازیابی خطاهای رباتیک

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران