موفقیت ۳۱ درصدی ASPIRE در اجرای تکالیف پیچیده روباتیک

۳۱ درصد موفقیت در حالت Zero-shot (بدون نمونه قبلی). این عدد تنها یک آمار نیست، بلکه نشان‌دهندهٔ جهشی است که چارچوب جدید ASPIRE (برنامه‌نویسی مهارت‌های عاملی از طریق اکتشاف تکراری روبات) در اجرای تکالیف پیچیده روباتیک ایجاد کرده است. این سیستم در تکالیف بلندمدت LIBERO-Pro به این رکورد دست یافته است، در حالی که متدهای پیشین معمولاً در نزدیکی ۴ درصد متوقف می‌شدند.

طبق گزارش منتشر شده در marktechpost.com، این نتیجه سیگنالی از یک تغییر پارادایم است: گذار از سیاست‌های استاتیک روباتیک به سمت عامل‌های (Agents) خودبهبوددهنده که قادرند از شکست‌های خود درس بگیرند. برنامه‌نویسی سنتی روبات‌ها به دلیل نیاز به هماهنگی دستی بین ادراک چندوجهی، دینامیک تماس فیزیکی، پیکربندی‌های متنوع و مدیریت شکست‌های اجرایی، مقیاس‌پذیری بسیار دشواری دارد. اکثر سیستم‌های فعلی که از رویکرد «کد به‌عنوان سیاست» (Code-as-Policy) استفاده می‌کنند، در محیط‌های ساده‌ای عمل می‌کنند که در آن تنها بازخوردهای کلی و در سطح تکلیف دریافت می‌کنند؛ یعنی اساساً می‌دانند تکلیفی شکست خورده است، اما درک نمی‌کنند چرا این اتفاق افتاده است. این رویکرد کد-محور، تحولی در دقت مکانی است که پیش‌تر در بررسی رابط‌های کد-محور در برابر فراخوانی صلب ابزارها مورد بحث قرار گرفت. این فقدان جزئیات به این معناست که عامل‌ها نمی‌توانند تشخیص دهند علت ریشه‌ای خطا در بخش ادراک بوده، یا برنامه‌ریزی حرکت، یا در نحوه گرفتن شیء (Grasping)، دینامیک تماس و یا هماهنگی در افق‌های زمانی بلند.

معماری سیستم و چارچوب

ASPIRE برای حل این مشکل، یک معماری «هماهنگ‌کننده-اجراکننده» (Coordinator-Actor) را معرفی می‌کند که توسط پژوهشگران شرکت NVIDIA، دانشگاه میشیگان، UIUC، دانشگاه برکلی (UC Berkeley) و CMU توسعه یافته است. در این ساختار، یک هماهنگ‌کننده مرکزی، کتابخانه‌ای مشترک از مهارت‌ها را مدیریت می‌کند و عامل‌های کدنویس (Actor Coding Agents) را به تکالیف مختلف اعزام می‌کند. برای حفظ کارایی و سرعت، این عامل‌ها تاریخچه کامل چت‌ها یا مسیرهای خام (Raw Trajectories) را با یکدیگر رد و بدل نمی‌کنند؛ بلکه تنها مهارت‌های پالایش‌شده و چکیده بین آن‌ها منتقل می‌شود.

در محیط شبیه‌سازی، عامل کدنویس از Claude Code با مدل Claude Opus 4.6 و پنجرهٔ زمینه (Context Window) یک میلیون توکنی استفاده می‌کند. برنامه‌ها در چارچوب متن‌باز CaP-X نوشته می‌شوند که یک سیستم «کد به‌عنوان سیاست» است و بر روی MuJoCo Playground بنا شده است. برای اطمینان از قابلیت انتقال به دنیای واقعی، یک قانون سخت‌گیرانه اعمال شده است: عامل کدنویس حق ندارد داده‌های مرجع (Ground Truth) شبیه‌ساز، مانند وضعیت‌های موتور فیزیک یا فایل‌های دارایی مثل .bddl، .xml یا .urdf را بخواند. منطق حاکم بر این محدودیت این است: «اگر یک روبات واقعی با یک دوربین بتواند کاری را انجام دهد، آن عمل مجاز است و در غیر این صورت ممنوع». این تاکید بر شبیه‌سازی به عنوان پل ارتباطی با دنیای واقعی، مشابه رویکردی است که شرکت Flexion Robotics برای آموزش ربات‌های انسان‌نما در محیط‌های اداری به کار گرفته است.

مکانیزم بهبود خودکار

سیستم ASPIRE بازخوردهای مبهمِ اجرای برنامه (Rollout Feedback) را با «ردپاهای چندوجهی در سطح هر ابزار» (Per-primitive Multimodal Traces) جایگزین می‌کند. برای هر فراخوانی مربوط به ادراک، برنامه‌ریزی و کنترل، سیستم موارد زیر را ذخیره می‌کند:

فریم‌های کلیدی RGB و لایه‌های روی‌هم (Overlays)
وضعیت اشیا (Poses) و کاندیداهای احتمالی برای گرفتن (Grasping candidates)
نتایج حاصل از برنامه‌ریزی حرکت
وضعیت ورودی/خروجی و کدهای بازگشتی (Return codes)

وقتی خطایی رخ می‌دهد، عامل تنها فراخوانی‌های خاصی را که در ایجاد خطا نقش داشته‌اند بازرسی می‌کند. این قابلیت به سیستم اجازه می‌دهد تا خطا را دقیقاً مکان‌یابی کند؛ برای مثال، تشخیص دهد که یک بافر ضدتصادم (Collision-avoidance buffer) باعث مسدود شدن مسیر شده است و سپس یک تعمیر (Repair) هدفمند و متمرکز برای رفع آن بنویسد.

کتابخانه مهارت‌ها و جست‌وجوی تکاملی

به جای ذخیره کل برنامه‌های مربوط به هر تکلیف، این کتابخانه «اصلاحات ناهمگن» (Heterogeneous Fixes) را ذخیره می‌کند که به عنوان راهنمای فشرده در بستر (In-context guidance) عمل می‌کنند. این اصلاحات شامل موارد زیر است:

میان‌برهای مکان‌یابی (Localization heuristics) و پرومپت‌های ادراکی
محدودیت‌های گرفتن (Grasping constraints) و ابزارهای اولیه حرکتی (Motion primitives)
جریان‌های کاری تخصصی برای عیب‌یابی (Debugging workflows)

هر مهارت شامل یک «امضای شکست» (Failure signature)، یک شرط برای زمانِ به‌کارگیری، یک استراتژی تعمیر و اغلب یک طرح اولیه از کد (Code sketch) است. هماهنگ‌کننده تنها الگوهایی را می‌پذیرد که از اعتبارسنجی عیب‌یابی و بررسی‌های سیاست API عبور کنند.

برای جلوگیری از افتادن در «حلقه‌های تعمیر محلی» — جایی که عامل مدام یک استراتژی شکست‌خورده را با وصله‌های کوچک اصلاح می‌کند بدون اینکه ریشه مشکل را تغییر دهد — ASPIRE از جست‌وجوی تکاملی (Evolutionary Search) استفاده می‌کند. عامل در هر دور، K برنامه کاندید پیشنهاد می‌دهد. این کاندیدها بر اساس برنامه‌های موفق قبلی و ردپاهای شکست‌خورده باقی‌مانده شرطی می‌شوند؛ این امر سیستم را مجبور می‌کند به جای بهینه‌سازی ساده یک راه حل، استراتژی‌های متمایز و متفاوتی را جست‌وجو کند.

مطالعه موردی: رویکرد چندزاویه‌ای

یک مثال در تکالیف BEHAVIOR-1K را در نظر بگیرید که در آن روبات باید رادیویی را از کنار یک میز بردارد. سیستم ادراکی، وضعیت رادیو را برمی‌گرداند، اما فراخوانی‌های navigate_to_pose شکست می‌خورند زیرا هدف در فاصله کمتر از ۲۰ سانتی‌متری لبه میز قرار دارد. این موضوع باعث ارسال یک خطای PLANNING_ERROR از سوی cuRobo می‌شود، چرا که بافر ضدتصادم مانع حرکت می‌شود.

عامل با خواندن ردپای خطا، علت را «غیرقابل دسترس بودن هدف» (Target Infeasibility) تشخیص می‌دهد. سپس یک تعمیر می‌نویسد که موقعیت‌های توقف (Standoff poses) را در اطراف رادیو (در فاصله ۰.۷ متری) در زوایای ۱۸۰، ۹۰، ۴۵، ۴۵- و ۹۰- درجه نمونه‌برداری می‌کند. وقتی موقعیت ۱۸۰ درجه باعث عبور از بافر ضدتصادم شد، این اصلاح اعتبارسنجی شده و به عنوان یک «مهارت بازیابی ناوبری» قابل استفاده در کتابخانه ذخیره می‌شود.

عملکرد در بنچمارک‌ها

سیستم ASPIRE در سه خانواده اصلی بنچمارک آزمایش شد و دستاوردهای قابل‌توجهی نسبت به خط پایه CaP-Agent0 و مدل‌های VLA سرتاسری (End-to-End) مانند OpenVLA، π0 و π0.5 نشان داد:

LIBERO-Pro: در مجموعه اشیا (با میانگین‌گیری از هر دو محور اختلال)، تا ۷۷ امتیاز کسب کرد و به موفقیت کلی ۷۲٪ رسید (در حالی که خط پایه ۱۸٪ بود). همچنین در تکالیف هدف-محور (Goal) ۴۱.۵ امتیاز و در تکالیف مکانی (Spatial) ۴۲.۵ امتیاز کسب کرد.
Robosuite: نرخ موفقیت در تحویل دو-دستی (Bimanual handover) از ۲۰٪ به ۹۲٪ افزایش یافت.
BEHAVIOR-1K: در تکلیف برداشتن رادیو، نرخ موفقیت از ۵۶٪ به ۸۸٪ رسید.

انتقال به دنیای واقعی

فراتر از شبیه‌سازی، تیم پژوهشی سه مهارت کشف‌شده را روی یک ایستگاه واقعی دو-دستی YAM با استفاده از مدل OpenAI Codex GPT-5.5 آزمایش کردند. علیرغم تفاوت در پیکربندی سخت‌افزاری (Embodiment) و API‌ها، مهارت‌های منتقل‌شده هزینه‌های عیب‌یابی را به‌طور چشمگیری کاهش دادند:

بلند کردن قوطی نوشابه: موفقیت از ۱۳ مورد از ۲۰ تلاش به ۱۹ مورد از ۲۰ افزایش یافت، در حالی که ۱۰ برابر توکن کمتری مصرف شد.
باز کردن کشو: موفقیت از ۰ مورد از ۲۰ (شکست مطلق در خط پایه بدون مهارت) به ۱۱ مورد از ۲۰ رسید.

این تغییر رویکرد، فرض بنیادی در عامل‌های روباتیک را عوض می‌کند. روبات‌ها دیگر هر تکلیف را به عنوان یک شروع تازه نمی‌بینند، بلکه لایه‌ای انباشته از تجربه دارند. در واقع، شکست در اینجا به عنوان یک منبع داده‌ای ساختاریافته برای استخراج دانش (Distillation) عمل می‌کند و روباتیک را به روشی نزدیک می‌کند که متخصصان انسانی مهارت‌های دستی خود را از طریق آزمون و خطا اصلاح می‌کنند.

توسعه‌دهندگان می‌توانند با بررسی صفحه پروژه و چارچوب متن‌باز CaP-X که بر روی MuJoCo Playground بنا شده است، این قابلیت‌ها را بیشتر کاوش کنند.

گام بعدی شما

تحلیل مستندات چارچوب متن‌باز CaP-X برای درک نحوه تبدیل کد به سیاست کنترلی.
بررسی نحوه پیاده‌سازی «کتابخانه مهارت‌ها» برای کاربردهای اتوماسیون صنعتی.
دنبال کردن به‌روزرسانی‌های مدل‌های استدلالی در حوزه رباتیک برای کاهش هزینه توکنش‌ها.

اما تأثیر این رویکرد بر سخت‌افزارهای لبه‌ای و کاهش تأخیر استنتاج، ابعاد پیچیده‌تری دارد — به تحلیل ما درباره معماری‌های توکن‌سازهای جدید مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

معماری سیستم و چارچوب

مکانیزم بهبود خودکار

فریم‌های کلیدی RGB و لایه‌های روی‌هم (Overlays)
وضعیت اشیا (Poses) و کاندیداهای احتمالی برای گرفتن (Grasping candidates)
نتایج حاصل از برنامه‌ریزی حرکت
وضعیت ورودی/خروجی و کدهای بازگشتی (Return codes)

کتابخانه مهارت‌ها و جست‌وجوی تکاملی

میان‌برهای مکان‌یابی (Localization heuristics) و پرومپت‌های ادراکی
محدودیت‌های گرفتن (Grasping constraints) و ابزارهای اولیه حرکتی (Motion primitives)
جریان‌های کاری تخصصی برای عیب‌یابی (Debugging workflows)

مطالعه موردی: رویکرد چندزاویه‌ای

عملکرد در بنچمارک‌ها

LIBERO-Pro: در مجموعه اشیا (با میانگین‌گیری از هر دو محور اختلال)، تا ۷۷ امتیاز کسب کرد و به موفقیت کلی ۷۲٪ رسید (در حالی که خط پایه ۱۸٪ بود). همچنین در تکالیف هدف-محور (Goal) ۴۱.۵ امتیاز و در تکالیف مکانی (Spatial) ۴۲.۵ امتیاز کسب کرد.
Robosuite: نرخ موفقیت در تحویل دو-دستی (Bimanual handover) از ۲۰٪ به ۹۲٪ افزایش یافت.
BEHAVIOR-1K: در تکلیف برداشتن رادیو، نرخ موفقیت از ۵۶٪ به ۸۸٪ رسید.

انتقال به دنیای واقعی

بلند کردن قوطی نوشابه: موفقیت از ۱۳ مورد از ۲۰ تلاش به ۱۹ مورد از ۲۰ افزایش یافت، در حالی که ۱۰ برابر توکن کمتری مصرف شد.
باز کردن کشو: موفقیت از ۰ مورد از ۲۰ (شکست مطلق در خط پایه بدون مهارت) به ۱۱ مورد از ۲۰ رسید.

گام بعدی شما

تحلیل مستندات چارچوب متن‌باز CaP-X برای درک نحوه تبدیل کد به سیاست کنترلی.
بررسی نحوه پیاده‌سازی «کتابخانه مهارت‌ها» برای کاربردهای اتوماسیون صنعتی.
دنبال کردن به‌روزرسانی‌های مدل‌های استدلالی در حوزه رباتیک برای کاهش هزینه توکنش‌ها.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

موفقیت ۳۱ درصدی ASPIRE در اجرای تکالیف پیچیده روباتیک

معماری سیستم و چارچوب

مکانیزم بهبود خودکار

کتابخانه مهارت‌ها و جست‌وجوی تکاملی

مطالعه موردی: رویکرد چندزاویه‌ای

عملکرد در بنچمارک‌ها

انتقال به دنیای واقعی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

موفقیت ۳۱ درصدی ASPIRE در اجرای تکالیف پیچیده روباتیک

معماری سیستم و چارچوب

مکانیزم بهبود خودکار

کتابخانه مهارت‌ها و جست‌وجوی تکاملی

مطالعه موردی: رویکرد چندزاویه‌ای

عملکرد در بنچمارک‌ها

انتقال به دنیای واقعی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

موفقیت ۳۱ درصدی ASPIRE در اجرای تکالیف پیچیده روباتیک

معماری سیستم و چارچوب

مکانیزم بهبود خودکار

کتابخانه مهارت‌ها و جست‌وجوی تکاملی

مطالعه موردی: رویکرد چندزاویه‌ای

عملکرد در بنچمارک‌ها

انتقال به دنیای واقعی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

موفقیت ۳۱ درصدی ASPIRE در اجرای تکالیف پیچیده روباتیک

معماری سیستم و چارچوب

مکانیزم بهبود خودکار

کتابخانه مهارت‌ها و جست‌وجوی تکاملی

مطالعه موردی: رویکرد چندزاویه‌ای

عملکرد در بنچمارک‌ها

انتقال به دنیای واقعی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران