تکنیک ANS: چگونه X-WAM سرعت استنتاج رباتیک را متحول کرد

تصور کنید رباتی که پیش از هر حرکت، آینده را در ۴ بُعد شبیه‌سازی می‌کند تا در لحظه، دقیق‌ترین تصمیم را بگیرد. اگر هنوز به مدل‌های دنیای دوبعدی تکیه می‌کنید، باید بدانید که عصر جدید ادراک رباتیک آغاز شده است.

به نقل از مقاله‌ای که در ۳۰ آوریل ۲۰۲۶ در arxiv.org منتشر شد، پژوهشگران مدل X-WAM را توسعه داده‌اند تا شکاف میان سنتز با کیفیت بالا و اجرای لحظه‌ای را پر کند. این مدل یک مدل دنیای یکپارچه است که برخلاف مدل‌های فضای پیکسل دوبعدی، در توازن میان کارایی عمل و کیفیت مدل‌سازی جهان تخصص دارد.

بر اساس مستندات فنی این پژوهش، X-WAM از ویژگی‌های زیر بهره می‌برد:

پیش‌بینی ویدئوهای RGB-D (قرمز-سبز-آبی-عمق) چندنمایی برای ثبت دقیق اطلاعات مکانی.
استفاده از یک ترنسفورمر انتشار (Diffusion Transformer) پیش‌آموزه با یک شاخه اختصاصی برای پیش‌بینی عمق.
به‌کارگیری نمونه‌برداری نویز نامتقارن (Asynchronous Noise Sampling یا ANS) برای جداسازی زمان استنتاج عمل از تولید تصویر.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی مدل‌های بنیادی (Foundation Models) برای رباتیک اشاره کردیم، چالش اصلی همواره تأخیر در پردازش بوده است. تکنیک ANS دقیقاً همین گره را باز می‌کند؛ این سازوکار در هنگام استنتاج (Inference)، دستورات عملیاتی را با گام‌های کمتر و سریع‌تر رمزگشایی می‌کند، در حالی که برای تولید ویدئوهای با کیفیت، از تمام توالی گام‌ها استفاده می‌کند.

این مدل که روی بیش از ۵٬۸۰۰ ساعت داده‌های رباتیک آموزش دیده، نتایج خیره‌کننده‌ای ثبت کرده است: نرخ موفقیت ۷۹.۲ درصدی در RoboCasa و ۹۰.۷ درصدی در RoboTwin 2.0. به همین دلیل، X-WAM اجازه می‌دهد ربات‌ها بدون آنکه منتظر رندر شدن تصاویر با رزولوشن بالا بمانند، به سرعت عمل کنند.

اما این تنها بخشی از معماست؛ چالش‌های سخت‌افزاری برای اجرای این مدل‌ها در لبه (Edge) را در گزارش بعدی بررسی خواهیم کرد.

گام بعدی شما

بررسی مقاله X-WAM در arxiv برای درک معماری شاخه‌های پیش‌بینی عمق.
تحلیل مقایسه‌ای نرخ موفقیت مدل‌های ۴ بعدی در برابر مدل‌های سنتی ۲ بعدی.
رصد پیشرفت‌های مربوط به کاهش هزینه محاسباتی در مدل‌های انتشار رباتیک.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

بر اساس مستندات فنی این پژوهش، X-WAM از ویژگی‌های زیر بهره می‌برد:

پیش‌بینی ویدئوهای RGB-D (قرمز-سبز-آبی-عمق) چندنمایی برای ثبت دقیق اطلاعات مکانی.
استفاده از یک ترنسفورمر انتشار (Diffusion Transformer) پیش‌آموزه با یک شاخه اختصاصی برای پیش‌بینی عمق.
به‌کارگیری نمونه‌برداری نویز نامتقارن (Asynchronous Noise Sampling یا ANS) برای جداسازی زمان استنتاج عمل از تولید تصویر.

گام بعدی شما

بررسی مقاله X-WAM در arxiv برای درک معماری شاخه‌های پیش‌بینی عمق.
تحلیل مقایسه‌ای نرخ موفقیت مدل‌های ۴ بعدی در برابر مدل‌های سنتی ۲ بعدی.
رصد پیشرفت‌های مربوط به کاهش هزینه محاسباتی در مدل‌های انتشار رباتیک.

تکنیک ANS: چگونه X-WAM سرعت استنتاج رباتیک را متحول کرد

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تکنیک ANS: چگونه X-WAM سرعت استنتاج رباتیک را متحول کرد

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تکنیک ANS: چگونه X-WAM سرعت استنتاج رباتیک را متحول کرد

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تکنیک ANS: چگونه X-WAM سرعت استنتاج رباتیک را متحول کرد

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران