اگر یک ربات یا سیستم واقعیت مجازی نتواند فشار دقیق گیرش یک شیء را حس کند، هرگونه تعامل با اشیاء حساس به شکست یا تخریب منجر خواهد شد. اکنون این محدودیت با حذف نیاز به حسگرهای حجیم و جایگزینی آنها با بینایی ماشین شکسته شده است.
به نقل از گزارش arxiv.org در ۹ ژوئن ۲۰۲۶، مدلهای سنتی حسگر لمس با آنچه «مالیات سختافزاری» نامیده میشود دستوپنجه نرم میکردند؛ یعنی حسگرها یا بیش از حد مزاحم بودند یا تنها در سطوح تخت کاربرد داشتند. همانطور که در تحلیلهای پیشین ما دربارهی مبنیسازی (grounding) مدلهای بصری اشاره کردیم، شکاف بزرگی در درک فیزیکی مدلهای هوش مصنوعی از تعامل دست و شیء وجود داشت.
تیم پژوهشی برای رفع این نقص، EgoTactile را معرفی کرد؛ یک بنچمارک جامع که ویدیوهای اولشخص را با نظارت دقیق بر فشار دست تطبیق میدهد. بر اساس مستندات این پروژه، دو مدل اصلی برای این هدف توسعه یافتهاند:
- EgoPressureFormer: یک مدل تشخیصدهنده (discriminative) که به عنوان خط پایه برای نقشهبرداری اولیه از فشار طراحی شده است.
- EgoPressureDiff: یک چارچوب مدل انتشار (diffusion model) شرطی که از یک ستون فقرات پیشآموزشدیده برای ویدیو بهره میبرد.
برای حل مشکل «مشاهدات ناقص» — زمانی که دست، نقطه تماس را میپوشاند — مدل EgoPressureDiff از یک لایهی «اصلاح ویژگیهای فیزیکی» استفاده میکند. این لایه محدودیتهای معنایی را تزریق میکند تا مدل بتواند الگوهای تماس را بر اساس دانش جهان فیزیکی استنتاج کند، نه صرفاً بر اساس پیکسلهای بصری.
این چرخش راهبردی، پیشفرضهای دستکاری رباتیک را تغییر میدهد. با انتقال از حسگری وابسته به سختافزار به استنتاج (inference) مبتنی بر بینایی، توسعهدهندگان میتوانند بازخورد لمسی با کیفیت بالا را در VR و گیرشهای تطبیقی را در رباتیک، بدون تغییر در رابط فیزیکی عامل، پیادهسازی کنند.
گام بعدی شما
- بررسی زیرمجموعهی «انتقال دستلخت» (bare-hand transfer) برای تحلیل قدرت تعمیم مدل در محیطهای واقعی و ناشناخته.
- رصد پیشرفتهای مربوط به ادغام این مدلهای انتشار در حلقههای کنترل آنی (real-time control) برای کاهش تأخیر پاسخ رباتیک.
اما چالش اصلی، مدیریت تأخیر در استنتاج است؛ موضوعی که در بررسیهای ما دربارهی رایانش لبه به آن پرداختیم.
گفتگو