اگر تصور میکنید برای کنترل دقیق رباتها به مدلهایی با میلیاردها پارامتر نیاز است، باید دیدگاه خود را تغییر دهید. مدل جدیدی معرفی شده است که با کسری از آن حجم محاسباتی، همان نتایج عملیاتی را میگیرد.
CT-VAM ثابت کرد که دستکاریهای پیچیده رباتیک لزوماً نیازمند مدلهای حجیم نیست. به نقل از پژوهشی که در ۹ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، این مدل با تنها ۶۸ میلیون پارامتر، در نرخ موفقیت با مدلهای عظیم بینایی-زبانی-کنشی (VLA) برابری میکند و اجازه میدهد کنترل سریع و بسته-حلقه (Closed-loop) روی سختافزارهای محدود اجرا شود.
همانطور که در بررسیهای پیشین خود دربارهی قوانین مقیاسپذیری (Scaling Laws) در رباتیک اشاره کردیم، همواره یک تضاد میان استدلال معنایی پیچیده و تأخیر پایین مورد نیاز برای حرکت فیزیکی وجود داشته است. مدلهای VLA بزرگ میتوانند وظایف را برنامهریزی کنند، اما سرعت استنتاج (Inference) آنها اغلب مانع از اجرای فرکانسبالا میشود. این خلأ، نیاز به یک معماری «ابر-لبه» ایجاد میکند که در آن قصد کلی در ابر پردازش شود و اجرای محلی، سبک و سریع باقی بماند.
قلب تپنده CT-VAM، جریان مسیریابی کنشی تالاموسی (TARS) است؛ یک دکودر توجه شرطی که جریانهای کنش، بصری و وظیفه را بهطور مستقل مسیریابی میکند. طبق مستندات این پژوهش، این مکانیسم مانع از آن میشود که توکنهای حسی متراکم، شرایط فشرده و مرتبط با وظیفه را در هم ببلعند.
مشخصات فنی این مدل عبارتند از:
- تعداد پارامترها: ۶۸ میلیون پارامتر
- معیار ارزیابی: نرخ موفقیت رقابتی در بنچمارک LIBERO
- متد اجرا: مدلسازی داخلی جریان-سازگار (Flow-consistent inpainting) برای اجرای تکههای ناهمگام
- سختافزار: بهینهشده برای استقرار روی پلتفرمهای رایانش لبه (Edge Computing)
این معماری، روند فعلی بزرگنمایی تمام اجزای پشتهی رباتیک را به چالش میکشد. با جداسازی «قصدِ وظیفه» از «اجرا» — که بازتابی از سیستم مخچه-تالاموسی در بیولوژی است — پژوهشگران نشان دادند که هماهنگی حسی-حرکتی، مسئلهای کاملاً متمایز از استدلال معنایی است. این چرخش، اعتبار یک سیاست محلی تخصصی را تأیید میکند که میتواند بدون اتکا به اتصال دائمی و پهنای باند بالای ابر برای ریز-تنظیمات، در لحظه واکنش نشان دهد.
گام بعدی شما
- بررسی متدهای TARS برای کاهش تأخیر در سیستمهای کنترل محلی
- رصد استقرار این مدلهای فشرده روی سختافزارهای انساننما (Humanoid)
- مطالعه اثر جداسازی لایهی قصد از لایهی اجرا بر کاهش هزینههای پردازشی
اما این بهینهسازی نرمافزاری تنها نیمی از داستان است؛ برای درک زیرساختی این تحول، تحلیل ما دربارهی تراشههای تخصصی استنتاج در لبه را بخوانید.
گفتگو