باید بدانید که گلوگاه اصلی در کنترل رباتیک، اصرار بر همزمانی پیشبینی محیط و اجرای حرکت است. AHA-WAM با شکستن این پیوند، سرعت واکنش رباتها را به سطح جدیدی رسانده است.
به نقل از گزارش منتشر شده در ۹ ژوئن ۲۰۲۶، این چارچوب توانسته است تأخیر در کنترل بسته-حلقه (Closed-loop control) را به گونهای کاهش دهد که رباتها اکنون با فرکانس ۲۴.۱۷ هرتز عمل میکنند. این جهش در پاسخدهی، مدلهای همزمان (Synchronous) پیشین را به چالش میکشد.
همانطور که در تحلیلهای پیشین ما دربارهی مدلهای جهان (World Models) اشاره کردیم، مدلهای سنتی پیشبینی جهان و اجرای عمل را در یک ریتم زمانی واحد قرار میدهند. این رویکرد ناکارآمد است، زیرا دینامیکهای محیط معمولاً کندتر از بهروزرسانیهای مورد نیاز برای کنترل دقیق موتورها تغییر میکنند و منجر به محاسبات تکراری و بیهوده در شاخه پیشبینی جهان میشوند.
طبق مستندات این پژوهش، AHA-WAM برای مدیریت این عدم تقارن از یک معماری ترنسفورمر انتشار (Diffusion Transformer یا DiT) دوگانه استفاده میکند:
- Video DiT: به عنوان یک برنامهریز جهان با فرکانس پایین عمل کرده و تکامل صحنه در بازههای زمانی بلند را رمزگذاری میکند.
- Action DiT: به عنوان یک اجراکننده با فرکانس بالا عمل کرده و با پرسوجو از بافتار ویدئویی، تکههای کوتاه عملیاتی را در یک حلقه بسته اجرا میکند.
- OVCR: سازوکار مسیریابی بافتار ویدئویی مبتنی بر مشاهده (Observation-Guided Video-Context Routing) که به مدل عمل اجازه میدهد بدون اجرای مجدد و پرهزینه مدل Video DiT، به وضعیتهای لحظهای واکنش نشان دهد.
بر اساس دادههای arXiv، این رویکرد به نرخ موفقیت میانگین ۹۲.۸۰٪ در محیط RoboTwin و ۷۸.۳٪ در چهار وظیفه دستورزی واقعی دست یافته است. نکته کلیدی این است که تمامی این نتایج بدون هیچگونه پیشآموزش (Pre-training) روی دادههای رباتیک حاصل شده است.
این طراحی، این فرض قدیمی که مدلسازی جهان باید پیشنیاقی همزمان برای هر گام عملیاتی باشد را میشکند. با treating کردن مدل جهان به عنوان یک بافتار با تأخیر-پذیر و مدل عمل را به عنوان یک جریان حساس-به-تأخیر، ثابت شد که میتوان پیشفرضهای فیزیکی با کیفیت بالا را بدون قربانی کردن عملکرد لحظهای به یادگیری سیاستها تزریق کرد.
گام بعدی شما
- بررسی پیادهسازی سازوکار OVCR در محیطهای پویا برای کاهش هزینههای استنتاج.
- تحلیل مقایسهای نرخ موفقیت AHA-WAM در برابر مدلهای همزمان در وظایف پیچیده دستورزی.
- رصد نتایج این معماری در محیطهای چندعاملی که نرخ بهروزرسانی مدل جهان را به چالش میکشد.
W اما چالش واقعی زمانی آغاز میشود که ربات با عوامل پیشبینیناپذیر در محیطهای شلوغ مواجه شود؛ در گزارش بعدی، اثرات این معماری بر سیستمهای چندعاملی را بررسی خواهیم کرد.
گفتگو