HeteroGenManip: افزایش ۳۶.۷ درصدی نرخ موفقیت ربات‌ها در تعامل با اشیاء متنوع

باید بپذیریم که تکیه بر مدل‌های یکپارچه (End-to-End) برای مدیریت ربات‌ها در محیط‌های پیچیده دیگر پاسخگو نیست. تصور کنید رباتی که در جابه‌جایی یک لیوان موفق است، در مواجهه با یک پیچ‌گوشتی به دلیل تفاوت متریال کاملاً شکست بخورد.

سال‌هاست که رباتیک با معضل تعاملات میان‌گروهی دست‌وپنجه نرم می‌کند؛ یعنی توانایی جابه‌جایی اشیایی با اشکال و متریال‌های کاملاً متفاوت. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی مدل‌های بنیادی (Foundation Models) اشاره کردیم، تلاش برای یادگیری هم‌زمانِ «کجا» و «چگونه» دست‌زدن، منجر به انباشت خطاهای فاجعه‌بار می‌شود و کوچک‌ترین اشتباه در لحظه‌ی اول، کل مسیر حرکت ربات را نابود می‌کند.

به نقل از گزارش منتشر شده در ۱۲ مه ۲۰۲۶ در arxiv.org، چارچوب HeteroGenManip با دستیابی به ۳۶.۷٪ بهبود عملکرد در چهار تسک واقعی، این سقف را جابه‌جا کرد. این سیستم به جای یک مدل واحد، از یک معماری دو مرحله‌ای استفاده می‌کند:

گرفتن هدایت‌شده با تطبیق بنیادی (Foundation-Correspondence-Guided Grasp): این ماژول با استفاده از پیش‌فرض‌های ساختاری، عدم قطعیت در وضعیت اولیه تماس را به شدت کاهش می‌دهد.
سیاست انتشار مدل‌های بنیادی چندگانه (Multi-Foundation-Model Diffusion Policy یا MFMDP): در این مرحله، اشیاء به مدل‌های بنیادی تخصصی هر دسته هدایت می‌شوند و از یک مکانیسم توجه متقاطع دو جریانی برای ادغام داده‌های هندسی دقیق استفاده می‌کنند.

طبق این گزارش، این رویکرد تفکیک‌شده منجر به ۳۱٪ بهبود در شبیه‌سازها و ۳۶.۷٪ افزایش دقت در محیط‌های فیزیکی شد.

این تغییر رویکرد، خروجی از فلسفه‌ی «یک اندازه برای همه» در رباتیک فعلی است. با تبدیل مراحل گرفتن و تعامل به گام‌های منطقی مجزا، پژوهشگران توانستند نویزهای مزاحم در یادگیری‌های سرتاسری را مهار کنند. این یعنی آینده‌ی رباتیک عمومی احتمالاً در «تخصص‌گرایی ماژولار» نهفته است، نه در یک شبکه عصبی عظیم و واحد.

گام بعدی شما

بررسی قابلیت مقیاس‌پذیری این مکانیسم مسیریابی در پلتفرم‌های انسان‌نما با درجات آزادی بالاتر.
رصد نتایج MFMDP در صورت افزایش تعداد دسته‌بندی اشیاء از ده‌ها مورد به هزاران مورد.
تحلیل اثر این معماری بر کاهش هزینه استنتاج در ربات‌های صنعتی.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

گرفتن هدایت‌شده با تطبیق بنیادی (Foundation-Correspondence-Guided Grasp): این ماژول با استفاده از پیش‌فرض‌های ساختاری، عدم قطعیت در وضعیت اولیه تماس را به شدت کاهش می‌دهد.
سیاست انتشار مدل‌های بنیادی چندگانه (Multi-Foundation-Model Diffusion Policy یا MFMDP): در این مرحله، اشیاء به مدل‌های بنیادی تخصصی هر دسته هدایت می‌شوند و از یک مکانیسم توجه متقاطع دو جریانی برای ادغام داده‌های هندسی دقیق استفاده می‌کنند.

طبق این گزارش، این رویکرد تفکیک‌شده منجر به ۳۱٪ بهبود در شبیه‌سازها و ۳۶.۷٪ افزایش دقت در محیط‌های فیزیکی شد.

گام بعدی شما

بررسی قابلیت مقیاس‌پذیری این مکانیسم مسیریابی در پلتفرم‌های انسان‌نما با درجات آزادی بالاتر.
رصد نتایج MFMDP در صورت افزایش تعداد دسته‌بندی اشیاء از ده‌ها مورد به هزاران مورد.
تحلیل اثر این معماری بر کاهش هزینه استنتاج در ربات‌های صنعتی.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

HeteroGenManip: افزایش ۳۶.۷ درصدی نرخ موفقیت ربات‌ها در تعامل با اشیاء متنوع

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

HeteroGenManip: افزایش ۳۶.۷ درصدی نرخ موفقیت ربات‌ها در تعامل با اشیاء متنوع

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

HeteroGenManip: افزایش ۳۶.۷ درصدی نرخ موفقیت ربات‌ها در تعامل با اشیاء متنوع

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

HeteroGenManip: افزایش ۳۶.۷ درصدی نرخ موفقیت ربات‌ها در تعامل با اشیاء متنوع

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران