AHA-WAM: کاهش ۴.۵۹ برابری تأخیر در کنترل رباتیک با مدل‌سازی نامتقارن جهان

باید بدانید که گلوگاه اصلی در کنترل رباتیک، اصرار بر همزمانی پیش‌بینی محیط و اجرای حرکت است. AHA-WAM با شکستن این پیوند، سرعت واکنش ربات‌ها را به سطح جدیدی رسانده است.

به نقل از گزارش منتشر شده در ۹ ژوئن ۲۰۲۶، این چارچوب توانسته است تأخیر در کنترل بسته-حلقه (Closed-loop control) را به گونه‌ای کاهش دهد که ربات‌ها اکنون با فرکانس ۲۴.۱۷ هرتز عمل می‌کنند. این جهش در پاسخ‌دهی، مدل‌های همزمان (Synchronous) پیشین را به چالش می‌کشد.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی مدل‌های جهان (World Models) اشاره کردیم، مدل‌های سنتی پیش‌بینی جهان و اجرای عمل را در یک ریتم زمانی واحد قرار می‌دهند. این رویکرد ناکارآمد است، زیرا دینامیک‌های محیط معمولاً کندتر از به‌روزرسانی‌های مورد نیاز برای کنترل دقیق موتورها تغییر می‌کنند و منجر به محاسبات تکراری و بیهوده در شاخه پیش‌بینی جهان می‌شوند.

طبق مستندات این پژوهش، AHA-WAM برای مدیریت این عدم تقارن از یک معماری ترنسفورمر انتشار (Diffusion Transformer یا DiT) دوگانه استفاده می‌کند:

Video DiT: به عنوان یک برنامه‌ریز جهان با فرکانس پایین عمل کرده و تکامل صحنه در بازه‌های زمانی بلند را رمزگذاری می‌کند.
Action DiT: به عنوان یک اجراکننده با فرکانس بالا عمل کرده و با پرس‌وجو از بافتار ویدئویی، تکه‌های کوتاه عملیاتی را در یک حلقه بسته اجرا می‌کند.
OVCR: سازوکار مسیریابی بافتار ویدئویی مبتنی بر مشاهده (Observation-Guided Video-Context Routing) که به مدل عمل اجازه می‌دهد بدون اجرای مجدد و پرهزینه مدل Video DiT، به وضعیت‌های لحظه‌ای واکنش نشان دهد.

بر اساس داده‌های arXiv، این رویکرد به نرخ موفقیت میانگین ۹۲.۸۰٪ در محیط RoboTwin و ۷۸.۳٪ در چهار وظیفه دست‌ورزی واقعی دست یافته است. نکته کلیدی این است که تمامی این نتایج بدون هیچ‌گونه پیش‌آموزش (Pre-training) روی داده‌های رباتیک حاصل شده است.

این طراحی، این فرض قدیمی که مدل‌سازی جهان باید پیش‌نیاقی همزمان برای هر گام عملیاتی باشد را می‌شکند. با treating کردن مدل جهان به عنوان یک بافتار با تأخیر-پذیر و مدل عمل را به عنوان یک جریان حساس-به-تأخیر، ثابت شد که می‌توان پیش‌فرض‌های فیزیکی با کیفیت بالا را بدون قربانی کردن عملکرد لحظه‌ای به یادگیری سیاست‌ها تزریق کرد.

گام بعدی شما

بررسی پیاده‌سازی سازوکار OVCR در محیط‌های پویا برای کاهش هزینه‌های استنتاج.
تحلیل مقایسه‌ای نرخ موفقیت AHA-WAM در برابر مدل‌های همزمان در وظایف پیچیده دست‌ورزی.
رصد نتایج این معماری در محیط‌های چندعاملی که نرخ به‌روزرسانی مدل جهان را به چالش می‌کشد.

W اما چالش واقعی زمانی آغاز می‌شود که ربات با عوامل پیش‌بینی‌ناپذیر در محیط‌های شلوغ مواجه شود؛ در گزارش بعدی، اثرات این معماری بر سیستم‌های چندعاملی را بررسی خواهیم کرد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

Video DiT: به عنوان یک برنامه‌ریز جهان با فرکانس پایین عمل کرده و تکامل صحنه در بازه‌های زمانی بلند را رمزگذاری می‌کند.
Action DiT: به عنوان یک اجراکننده با فرکانس بالا عمل کرده و با پرس‌وجو از بافتار ویدئویی، تکه‌های کوتاه عملیاتی را در یک حلقه بسته اجرا می‌کند.
OVCR: سازوکار مسیریابی بافتار ویدئویی مبتنی بر مشاهده (Observation-Guided Video-Context Routing) که به مدل عمل اجازه می‌دهد بدون اجرای مجدد و پرهزینه مدل Video DiT، به وضعیت‌های لحظه‌ای واکنش نشان دهد.

گام بعدی شما

بررسی پیاده‌سازی سازوکار OVCR در محیط‌های پویا برای کاهش هزینه‌های استنتاج.
تحلیل مقایسه‌ای نرخ موفقیت AHA-WAM در برابر مدل‌های همزمان در وظایف پیچیده دست‌ورزی.
رصد نتایج این معماری در محیط‌های چندعاملی که نرخ به‌روزرسانی مدل جهان را به چالش می‌کشد.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

AHA-WAM: کاهش ۴.۵۹ برابری تأخیر در کنترل رباتیک با مدل‌سازی نامتقارن جهان

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

AHA-WAM: کاهش ۴.۵۹ برابری تأخیر در کنترل رباتیک با مدل‌سازی نامتقارن جهان

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

AHA-WAM: کاهش ۴.۵۹ برابری تأخیر در کنترل رباتیک با مدل‌سازی نامتقارن جهان

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

AHA-WAM: کاهش ۴.۵۹ برابری تأخیر در کنترل رباتیک با مدل‌سازی نامتقارن جهان

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران