حذف حسگرهای لمسی با EgoTactile؛ تخمین فشار دست از روی ویدیو

اگر یک ربات یا سیستم واقعیت مجازی نتواند فشار دقیق گیرش یک شیء را حس کند، هرگونه تعامل با اشیاء حساس به شکست یا تخریب منجر خواهد شد. اکنون این محدودیت با حذف نیاز به حسگرهای حجیم و جایگزینی آن‌ها با بینایی ماشین شکسته شده است.

به نقل از گزارش arxiv.org در ۹ ژوئن ۲۰۲۶، مدل‌های سنتی حسگر لمس با آنچه «مالیات سخت‌افزاری» نامیده می‌شود دست‌وپنجه نرم می‌کردند؛ یعنی حسگرها یا بیش از حد مزاحم بودند یا تنها در سطوح تخت کاربرد داشتند. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی مبنی‌سازی (grounding) مدل‌های بصری اشاره کردیم، شکاف بزرگی در درک فیزیکی مدل‌های هوش مصنوعی از تعامل دست و شیء وجود داشت.

تیم پژوهشی برای رفع این نقص، EgoTactile را معرفی کرد؛ یک بنچمارک جامع که ویدیوهای اول‌شخص را با نظارت دقیق بر فشار دست تطبیق می‌دهد. بر اساس مستندات این پروژه، دو مدل اصلی برای این هدف توسعه یافته‌اند:

EgoPressureFormer: یک مدل تشخیص‌دهنده (discriminative) که به عنوان خط پایه برای نقشه‌برداری اولیه از فشار طراحی شده است.
EgoPressureDiff: یک چارچوب مدل انتشار (diffusion model) شرطی که از یک ستون فقرات پیش‌آموزش‌دیده برای ویدیو بهره می‌برد.

برای حل مشکل «مشاهدات ناقص» — زمانی که دست، نقطه تماس را می‌پوشاند — مدل EgoPressureDiff از یک لایه‌ی «اصلاح ویژگی‌های فیزیکی» استفاده می‌کند. این لایه محدودیت‌های معنایی را تزریق می‌کند تا مدل بتواند الگوهای تماس را بر اساس دانش جهان فیزیکی استنتاج کند، نه صرفاً بر اساس پیکسل‌های بصری.

این چرخش راهبردی، پیش‌فرض‌های دست‌کاری رباتیک را تغییر می‌دهد. با انتقال از حسگری وابسته به سخت‌افزار به استنتاج (inference) مبتنی بر بینایی، توسعه‌دهندگان می‌توانند بازخورد لمسی با کیفیت بالا را در VR و گیرش‌های تطبیقی را در رباتیک، بدون تغییر در رابط فیزیکی عامل، پیاده‌سازی کنند.

گام بعدی شما

بررسی زیرمجموعه‌ی «انتقال دست‌لخت» (bare-hand transfer) برای تحلیل قدرت تعمیم مدل در محیط‌های واقعی و ناشناخته.
رصد پیشرفت‌های مربوط به ادغام این مدل‌های انتشار در حلقه‌های کنترل آنی (real-time control) برای کاهش تأخیر پاسخ رباتیک.

اما چالش اصلی، مدیریت تأخیر در استنتاج است؛ موضوعی که در بررسی‌های ما درباره‌ی رایانش لبه به آن پرداختیم.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

EgoPressureFormer: یک مدل تشخیص‌دهنده (discriminative) که به عنوان خط پایه برای نقشه‌برداری اولیه از فشار طراحی شده است.
EgoPressureDiff: یک چارچوب مدل انتشار (diffusion model) شرطی که از یک ستون فقرات پیش‌آموزش‌دیده برای ویدیو بهره می‌برد.

گام بعدی شما

بررسی زیرمجموعه‌ی «انتقال دست‌لخت» (bare-hand transfer) برای تحلیل قدرت تعمیم مدل در محیط‌های واقعی و ناشناخته.
رصد پیشرفت‌های مربوط به ادغام این مدل‌های انتشار در حلقه‌های کنترل آنی (real-time control) برای کاهش تأخیر پاسخ رباتیک.

اما چالش اصلی، مدیریت تأخیر در استنتاج است؛ موضوعی که در بررسی‌های ما درباره‌ی رایانش لبه به آن پرداختیم.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

حذف حسگرهای لمسی با EgoTactile؛ تخمین فشار دست از روی ویدیو

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

حذف حسگرهای لمسی با EgoTactile؛ تخمین فشار دست از روی ویدیو

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

حذف حسگرهای لمسی با EgoTactile؛ تخمین فشار دست از روی ویدیو

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

حذف حسگرهای لمسی با EgoTactile؛ تخمین فشار دست از روی ویدیو

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران