مدل CT-VAM: دستیابی به عملکرد VLAهای غول‌پیکر با تنها ۶۸ میلیون پارامتر

اگر تصور می‌کنید برای کنترل دقیق ربات‌ها به مدل‌هایی با میلیاردها پارامتر نیاز است، باید دیدگاه خود را تغییر دهید. مدل جدیدی معرفی شده است که با کسری از آن حجم محاسباتی، همان نتایج عملیاتی را می‌گیرد.

CT-VAM ثابت کرد که دست‌کاری‌های پیچیده رباتیک لزوماً نیازمند مدل‌های حجیم نیست. به نقل از پژوهشی که در ۹ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، این مدل با تنها ۶۸ میلیون پارامتر، در نرخ موفقیت با مدل‌های عظیم بینایی-زبانی-کنشی (VLA) برابری می‌کند و اجازه می‌دهد کنترل سریع و بسته-حلقه (Closed-loop) روی سخت‌افزارهای محدود اجرا شود.

همان‌طور که در بررسی‌های پیشین خود درباره‌ی قوانین مقیاس‌پذیری (Scaling Laws) در رباتیک اشاره کردیم، همواره یک تضاد میان استدلال معنایی پیچیده و تأخیر پایین مورد نیاز برای حرکت فیزیکی وجود داشته است. مدل‌های VLA بزرگ می‌توانند وظایف را برنامه‌ریزی کنند، اما سرعت استنتاج (Inference) آن‌ها اغلب مانع از اجرای فرکانس‌بالا می‌شود. این خلأ، نیاز به یک معماری «ابر-لبه» ایجاد می‌کند که در آن قصد کلی در ابر پردازش شود و اجرای محلی، سبک و سریع باقی بماند.

قلب تپنده CT-VAM، جریان مسیریابی کنشی تالاموسی (TARS) است؛ یک دکودر توجه شرطی که جریان‌های کنش، بصری و وظیفه را به‌طور مستقل مسیریابی می‌کند. طبق مستندات این پژوهش، این مکانیسم مانع از آن می‌شود که توکن‌های حسی متراکم، شرایط فشرده و مرتبط با وظیفه را در هم ببلعند.

مشخصات فنی این مدل عبارتند از:

تعداد پارامترها: ۶۸ میلیون پارامتر
معیار ارزیابی: نرخ موفقیت رقابتی در بنچمارک LIBERO
متد اجرا: مدل‌سازی داخلی جریان-سازگار (Flow-consistent inpainting) برای اجرای تکه‌های ناهمگام
سخت‌افزار: بهینه‌شده برای استقرار روی پلتفرم‌های رایانش لبه (Edge Computing)

این معماری، روند فعلی بزرگ‌نمایی تمام اجزای پشته‌ی رباتیک را به چالش می‌کشد. با جداسازی «قصدِ وظیفه» از «اجرا» — که بازتابی از سیستم مخچه-تالاموسی در بیولوژی است — پژوهشگران نشان دادند که هماهنگی حسی-حرکتی، مسئله‌ای کاملاً متمایز از استدلال معنایی است. این چرخش، اعتبار یک سیاست محلی تخصصی را تأیید می‌کند که می‌تواند بدون اتکا به اتصال دائمی و پهنای باند بالای ابر برای ریز-تنظیمات، در لحظه واکنش نشان دهد.

گام بعدی شما

بررسی متدهای TARS برای کاهش تأخیر در سیستم‌های کنترل محلی
رصد استقرار این مدل‌های فشرده روی سخت‌افزارهای انسان‌نما (Humanoid)
مطالعه اثر جداسازی لایه‌ی قصد از لایه‌ی اجرا بر کاهش هزینه‌های پردازشی

اما این بهینه‌سازی نرم‌افزاری تنها نیمی از داستان است؛ برای درک زیرساختی این تحول، تحلیل ما درباره‌ی تراشه‌های تخصصی استنتاج در لبه را بخوانید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

مشخصات فنی این مدل عبارتند از:

تعداد پارامترها: ۶۸ میلیون پارامتر
معیار ارزیابی: نرخ موفقیت رقابتی در بنچمارک LIBERO
متد اجرا: مدل‌سازی داخلی جریان-سازگار (Flow-consistent inpainting) برای اجرای تکه‌های ناهمگام
سخت‌افزار: بهینه‌شده برای استقرار روی پلتفرم‌های رایانش لبه (Edge Computing)

گام بعدی شما

بررسی متدهای TARS برای کاهش تأخیر در سیستم‌های کنترل محلی
رصد استقرار این مدل‌های فشرده روی سخت‌افزارهای انسان‌نما (Humanoid)
مطالعه اثر جداسازی لایه‌ی قصد از لایه‌ی اجرا بر کاهش هزینه‌های پردازشی

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل CT-VAM: دستیابی به عملکرد VLAهای غول‌پیکر با تنها ۶۸ میلیون پارامتر

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل CT-VAM: دستیابی به عملکرد VLAهای غول‌پیکر با تنها ۶۸ میلیون پارامتر

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل CT-VAM: دستیابی به عملکرد VLAهای غول‌پیکر با تنها ۶۸ میلیون پارامتر

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل CT-VAM: دستیابی به عملکرد VLAهای غول‌پیکر با تنها ۶۸ میلیون پارامتر

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران