تصور کنید رباتی که پیش از هر حرکت، آینده را در ۴ بُعد شبیهسازی میکند تا در لحظه، دقیقترین تصمیم را بگیرد. اگر هنوز به مدلهای دنیای دوبعدی تکیه میکنید، باید بدانید که عصر جدید ادراک رباتیک آغاز شده است.
به نقل از مقالهای که در ۳۰ آوریل ۲۰۲۶ در arxiv.org منتشر شد، پژوهشگران مدل X-WAM را توسعه دادهاند تا شکاف میان سنتز با کیفیت بالا و اجرای لحظهای را پر کند. این مدل یک مدل دنیای یکپارچه است که برخلاف مدلهای فضای پیکسل دوبعدی، در توازن میان کارایی عمل و کیفیت مدلسازی جهان تخصص دارد.
بر اساس مستندات فنی این پژوهش، X-WAM از ویژگیهای زیر بهره میبرد:
- پیشبینی ویدئوهای RGB-D (قرمز-سبز-آبی-عمق) چندنمایی برای ثبت دقیق اطلاعات مکانی.
- استفاده از یک ترنسفورمر انتشار (Diffusion Transformer) پیشآموزه با یک شاخه اختصاصی برای پیشبینی عمق.
- بهکارگیری نمونهبرداری نویز نامتقارن (Asynchronous Noise Sampling یا ANS) برای جداسازی زمان استنتاج عمل از تولید تصویر.
همانطور که در تحلیلهای پیشین ما دربارهی مدلهای بنیادی (Foundation Models) برای رباتیک اشاره کردیم، چالش اصلی همواره تأخیر در پردازش بوده است. تکنیک ANS دقیقاً همین گره را باز میکند؛ این سازوکار در هنگام استنتاج (Inference)، دستورات عملیاتی را با گامهای کمتر و سریعتر رمزگشایی میکند، در حالی که برای تولید ویدئوهای با کیفیت، از تمام توالی گامها استفاده میکند.
این مدل که روی بیش از ۵٬۸۰۰ ساعت دادههای رباتیک آموزش دیده، نتایج خیرهکنندهای ثبت کرده است: نرخ موفقیت ۷۹.۲ درصدی در RoboCasa و ۹۰.۷ درصدی در RoboTwin 2.0. به همین دلیل، X-WAM اجازه میدهد رباتها بدون آنکه منتظر رندر شدن تصاویر با رزولوشن بالا بمانند، به سرعت عمل کنند.
اما این تنها بخشی از معماست؛ چالشهای سختافزاری برای اجرای این مدلها در لبه (Edge) را در گزارش بعدی بررسی خواهیم کرد.
گام بعدی شما
- بررسی مقاله X-WAM در arxiv برای درک معماری شاخههای پیشبینی عمق.
- تحلیل مقایسهای نرخ موفقیت مدلهای ۴ بعدی در برابر مدلهای سنتی ۲ بعدی.
- رصد پیشرفتهای مربوط به کاهش هزینه محاسباتی در مدلهای انتشار رباتیک.




گفتگو