باید بپذیریم که تکیه بر مدلهای یکپارچه (End-to-End) برای مدیریت رباتها در محیطهای پیچیده دیگر پاسخگو نیست. تصور کنید رباتی که در جابهجایی یک لیوان موفق است، در مواجهه با یک پیچگوشتی به دلیل تفاوت متریال کاملاً شکست بخورد.
سالهاست که رباتیک با معضل تعاملات میانگروهی دستوپنجه نرم میکند؛ یعنی توانایی جابهجایی اشیایی با اشکال و متریالهای کاملاً متفاوت. همانطور که در تحلیلهای پیشین ما دربارهی مدلهای بنیادی (Foundation Models) اشاره کردیم، تلاش برای یادگیری همزمانِ «کجا» و «چگونه» دستزدن، منجر به انباشت خطاهای فاجعهبار میشود و کوچکترین اشتباه در لحظهی اول، کل مسیر حرکت ربات را نابود میکند.
به نقل از گزارش منتشر شده در ۱۲ مه ۲۰۲۶ در arxiv.org، چارچوب HeteroGenManip با دستیابی به ۳۶.۷٪ بهبود عملکرد در چهار تسک واقعی، این سقف را جابهجا کرد. این سیستم به جای یک مدل واحد، از یک معماری دو مرحلهای استفاده میکند:
- گرفتن هدایتشده با تطبیق بنیادی (Foundation-Correspondence-Guided Grasp): این ماژول با استفاده از پیشفرضهای ساختاری، عدم قطعیت در وضعیت اولیه تماس را به شدت کاهش میدهد.
- سیاست انتشار مدلهای بنیادی چندگانه (Multi-Foundation-Model Diffusion Policy یا MFMDP): در این مرحله، اشیاء به مدلهای بنیادی تخصصی هر دسته هدایت میشوند و از یک مکانیسم توجه متقاطع دو جریانی برای ادغام دادههای هندسی دقیق استفاده میکنند.
طبق این گزارش، این رویکرد تفکیکشده منجر به ۳۱٪ بهبود در شبیهسازها و ۳۶.۷٪ افزایش دقت در محیطهای فیزیکی شد.
این تغییر رویکرد، خروجی از فلسفهی «یک اندازه برای همه» در رباتیک فعلی است. با تبدیل مراحل گرفتن و تعامل به گامهای منطقی مجزا، پژوهشگران توانستند نویزهای مزاحم در یادگیریهای سرتاسری را مهار کنند. این یعنی آیندهی رباتیک عمومی احتمالاً در «تخصصگرایی ماژولار» نهفته است، نه در یک شبکه عصبی عظیم و واحد.
گام بعدی شما
- بررسی قابلیت مقیاسپذیری این مکانیسم مسیریابی در پلتفرمهای انساننما با درجات آزادی بالاتر.
- رصد نتایج MFMDP در صورت افزایش تعداد دستهبندی اشیاء از دهها مورد به هزاران مورد.
- تحلیل اثر این معماری بر کاهش هزینه استنتاج در رباتهای صنعتی.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو