۳۱ درصد موفقیت در حالت Zero-shot (بدون نمونه قبلی). این عدد تنها یک آمار نیست، بلکه نشاندهندهٔ جهشی است که چارچوب جدید ASPIRE (برنامهنویسی مهارتهای عاملی از طریق اکتشاف تکراری روبات) در اجرای تکالیف پیچیده روباتیک ایجاد کرده است. این سیستم در تکالیف بلندمدت LIBERO-Pro به این رکورد دست یافته است، در حالی که متدهای پیشین معمولاً در نزدیکی ۴ درصد متوقف میشدند.
طبق گزارش منتشر شده در marktechpost.com، این نتیجه سیگنالی از یک تغییر پارادایم است: گذار از سیاستهای استاتیک روباتیک به سمت عاملهای (Agents) خودبهبوددهنده که قادرند از شکستهای خود درس بگیرند. برنامهنویسی سنتی روباتها به دلیل نیاز به هماهنگی دستی بین ادراک چندوجهی، دینامیک تماس فیزیکی، پیکربندیهای متنوع و مدیریت شکستهای اجرایی، مقیاسپذیری بسیار دشواری دارد. اکثر سیستمهای فعلی که از رویکرد «کد بهعنوان سیاست» (Code-as-Policy) استفاده میکنند، در محیطهای سادهای عمل میکنند که در آن تنها بازخوردهای کلی و در سطح تکلیف دریافت میکنند؛ یعنی اساساً میدانند تکلیفی شکست خورده است، اما درک نمیکنند چرا این اتفاق افتاده است. این رویکرد کد-محور، تحولی در دقت مکانی است که پیشتر در بررسی رابطهای کد-محور در برابر فراخوانی صلب ابزارها مورد بحث قرار گرفت. این فقدان جزئیات به این معناست که عاملها نمیتوانند تشخیص دهند علت ریشهای خطا در بخش ادراک بوده، یا برنامهریزی حرکت، یا در نحوه گرفتن شیء (Grasping)، دینامیک تماس و یا هماهنگی در افقهای زمانی بلند.
معماری سیستم و چارچوب
ASPIRE برای حل این مشکل، یک معماری «هماهنگکننده-اجراکننده» (Coordinator-Actor) را معرفی میکند که توسط پژوهشگران شرکت NVIDIA، دانشگاه میشیگان، UIUC، دانشگاه برکلی (UC Berkeley) و CMU توسعه یافته است. در این ساختار، یک هماهنگکننده مرکزی، کتابخانهای مشترک از مهارتها را مدیریت میکند و عاملهای کدنویس (Actor Coding Agents) را به تکالیف مختلف اعزام میکند. برای حفظ کارایی و سرعت، این عاملها تاریخچه کامل چتها یا مسیرهای خام (Raw Trajectories) را با یکدیگر رد و بدل نمیکنند؛ بلکه تنها مهارتهای پالایششده و چکیده بین آنها منتقل میشود.
در محیط شبیهسازی، عامل کدنویس از Claude Code با مدل Claude Opus 4.6 و پنجرهٔ زمینه (Context Window) یک میلیون توکنی استفاده میکند. برنامهها در چارچوب متنباز CaP-X نوشته میشوند که یک سیستم «کد بهعنوان سیاست» است و بر روی MuJoCo Playground بنا شده است. برای اطمینان از قابلیت انتقال به دنیای واقعی، یک قانون سختگیرانه اعمال شده است: عامل کدنویس حق ندارد دادههای مرجع (Ground Truth) شبیهساز، مانند وضعیتهای موتور فیزیک یا فایلهای دارایی مثل .bddl، .xml یا .urdf را بخواند. منطق حاکم بر این محدودیت این است: «اگر یک روبات واقعی با یک دوربین بتواند کاری را انجام دهد، آن عمل مجاز است و در غیر این صورت ممنوع». این تاکید بر شبیهسازی به عنوان پل ارتباطی با دنیای واقعی، مشابه رویکردی است که شرکت Flexion Robotics برای آموزش رباتهای انساننما در محیطهای اداری به کار گرفته است.
مکانیزم بهبود خودکار
سیستم ASPIRE بازخوردهای مبهمِ اجرای برنامه (Rollout Feedback) را با «ردپاهای چندوجهی در سطح هر ابزار» (Per-primitive Multimodal Traces) جایگزین میکند. برای هر فراخوانی مربوط به ادراک، برنامهریزی و کنترل، سیستم موارد زیر را ذخیره میکند:
- فریمهای کلیدی RGB و لایههای رویهم (Overlays)
- وضعیت اشیا (Poses) و کاندیداهای احتمالی برای گرفتن (Grasping candidates)
- نتایج حاصل از برنامهریزی حرکت
- وضعیت ورودی/خروجی و کدهای بازگشتی (Return codes)
وقتی خطایی رخ میدهد، عامل تنها فراخوانیهای خاصی را که در ایجاد خطا نقش داشتهاند بازرسی میکند. این قابلیت به سیستم اجازه میدهد تا خطا را دقیقاً مکانیابی کند؛ برای مثال، تشخیص دهد که یک بافر ضدتصادم (Collision-avoidance buffer) باعث مسدود شدن مسیر شده است و سپس یک تعمیر (Repair) هدفمند و متمرکز برای رفع آن بنویسد.
کتابخانه مهارتها و جستوجوی تکاملی
به جای ذخیره کل برنامههای مربوط به هر تکلیف، این کتابخانه «اصلاحات ناهمگن» (Heterogeneous Fixes) را ذخیره میکند که به عنوان راهنمای فشرده در بستر (In-context guidance) عمل میکنند. این اصلاحات شامل موارد زیر است:
- میانبرهای مکانیابی (Localization heuristics) و پرومپتهای ادراکی
- محدودیتهای گرفتن (Grasping constraints) و ابزارهای اولیه حرکتی (Motion primitives)
- جریانهای کاری تخصصی برای عیبیابی (Debugging workflows)
هر مهارت شامل یک «امضای شکست» (Failure signature)، یک شرط برای زمانِ بهکارگیری، یک استراتژی تعمیر و اغلب یک طرح اولیه از کد (Code sketch) است. هماهنگکننده تنها الگوهایی را میپذیرد که از اعتبارسنجی عیبیابی و بررسیهای سیاست API عبور کنند.
برای جلوگیری از افتادن در «حلقههای تعمیر محلی» — جایی که عامل مدام یک استراتژی شکستخورده را با وصلههای کوچک اصلاح میکند بدون اینکه ریشه مشکل را تغییر دهد — ASPIRE از جستوجوی تکاملی (Evolutionary Search) استفاده میکند. عامل در هر دور، K برنامه کاندید پیشنهاد میدهد. این کاندیدها بر اساس برنامههای موفق قبلی و ردپاهای شکستخورده باقیمانده شرطی میشوند؛ این امر سیستم را مجبور میکند به جای بهینهسازی ساده یک راه حل، استراتژیهای متمایز و متفاوتی را جستوجو کند.
مطالعه موردی: رویکرد چندزاویهای
یک مثال در تکالیف BEHAVIOR-1K را در نظر بگیرید که در آن روبات باید رادیویی را از کنار یک میز بردارد. سیستم ادراکی، وضعیت رادیو را برمیگرداند، اما فراخوانیهای navigate_to_pose شکست میخورند زیرا هدف در فاصله کمتر از ۲۰ سانتیمتری لبه میز قرار دارد. این موضوع باعث ارسال یک خطای PLANNING_ERROR از سوی cuRobo میشود، چرا که بافر ضدتصادم مانع حرکت میشود.
عامل با خواندن ردپای خطا، علت را «غیرقابل دسترس بودن هدف» (Target Infeasibility) تشخیص میدهد. سپس یک تعمیر مینویسد که موقعیتهای توقف (Standoff poses) را در اطراف رادیو (در فاصله ۰.۷ متری) در زوایای ۱۸۰، ۹۰، ۴۵، ۴۵- و ۹۰- درجه نمونهبرداری میکند. وقتی موقعیت ۱۸۰ درجه باعث عبور از بافر ضدتصادم شد، این اصلاح اعتبارسنجی شده و به عنوان یک «مهارت بازیابی ناوبری» قابل استفاده در کتابخانه ذخیره میشود.
عملکرد در بنچمارکها
سیستم ASPIRE در سه خانواده اصلی بنچمارک آزمایش شد و دستاوردهای قابلتوجهی نسبت به خط پایه CaP-Agent0 و مدلهای VLA سرتاسری (End-to-End) مانند OpenVLA، π0 و π0.5 نشان داد:
- LIBERO-Pro: در مجموعه اشیا (با میانگینگیری از هر دو محور اختلال)، تا ۷۷ امتیاز کسب کرد و به موفقیت کلی ۷۲٪ رسید (در حالی که خط پایه ۱۸٪ بود). همچنین در تکالیف هدف-محور (Goal) ۴۱.۵ امتیاز و در تکالیف مکانی (Spatial) ۴۲.۵ امتیاز کسب کرد.
- Robosuite: نرخ موفقیت در تحویل دو-دستی (Bimanual handover) از ۲۰٪ به ۹۲٪ افزایش یافت.
- BEHAVIOR-1K: در تکلیف برداشتن رادیو، نرخ موفقیت از ۵۶٪ به ۸۸٪ رسید.
انتقال به دنیای واقعی
فراتر از شبیهسازی، تیم پژوهشی سه مهارت کشفشده را روی یک ایستگاه واقعی دو-دستی YAM با استفاده از مدل OpenAI Codex GPT-5.5 آزمایش کردند. علیرغم تفاوت در پیکربندی سختافزاری (Embodiment) و APIها، مهارتهای منتقلشده هزینههای عیبیابی را بهطور چشمگیری کاهش دادند:
- بلند کردن قوطی نوشابه: موفقیت از ۱۳ مورد از ۲۰ تلاش به ۱۹ مورد از ۲۰ افزایش یافت، در حالی که ۱۰ برابر توکن کمتری مصرف شد.
- باز کردن کشو: موفقیت از ۰ مورد از ۲۰ (شکست مطلق در خط پایه بدون مهارت) به ۱۱ مورد از ۲۰ رسید.
این تغییر رویکرد، فرض بنیادی در عاملهای روباتیک را عوض میکند. روباتها دیگر هر تکلیف را به عنوان یک شروع تازه نمیبینند، بلکه لایهای انباشته از تجربه دارند. در واقع، شکست در اینجا به عنوان یک منبع دادهای ساختاریافته برای استخراج دانش (Distillation) عمل میکند و روباتیک را به روشی نزدیک میکند که متخصصان انسانی مهارتهای دستی خود را از طریق آزمون و خطا اصلاح میکنند.
توسعهدهندگان میتوانند با بررسی صفحه پروژه و چارچوب متنباز CaP-X که بر روی MuJoCo Playground بنا شده است، این قابلیتها را بیشتر کاوش کنند.
گام بعدی شما
- تحلیل مستندات چارچوب متنباز CaP-X برای درک نحوه تبدیل کد به سیاست کنترلی.
- بررسی نحوه پیادهسازی «کتابخانه مهارتها» برای کاربردهای اتوماسیون صنعتی.
- دنبال کردن بهروزرسانیهای مدلهای استدلالی در حوزه رباتیک برای کاهش هزینه توکنشها.
اما تأثیر این رویکرد بر سختافزارهای لبهای و کاهش تأخیر استنتاج، ابعاد پیچیدهتری دارد — به تحلیل ما درباره معماریهای توکنسازهای جدید مراجعه کنید.




گفتگو