تصور کنید رباتی را هدایت کنید که نیاز به هیچ دستور پیچیدهای ندارد و تنها با یک نگاه، متوجه هدف شما میشود. این یعنی پایان دوران وابستگی مطلق رباتها به دستورات کلامی دقیق.
طبق تحلیل فنی منتشر شده در ۱۰ ژوئن ۲۰۲۶، چارچوب EDITH این رویکرد را عملیاتی کرده است. در حالی که اکثر سیستمهای فعلی تمام بار ارتباط را بر دوش کاربر میاندازند، EDITH از سیگنالهای غیرکلامی استفاده میکند. همانطور که در بررسیهای پیشین ما دربارهی مدلهای چندوجهی (Multimodal Models) اشاره کردیم، چالش اصلی همواره تبدیل دادههای بصری پراکنده به اقدامات هدفمند بوده است.
این سیستم از سختافزاری متشکل از عینکهای هوشمند استفاده میکند تا نمای اولشخص و مسیر نگاه کاربر را بهصورت آنی به ربات ارسال کند. برای مدیریت این دادههای نویزی، پژوهشگران از یک سیاست سلسلهمراتب (Hierarchical Policy) دو لایه استفاده کردهاند:
- سیاست سطح بالا (High-Level Policy): قصد کاربر را استخراج کرده و فهرستی از زیر-وظایف (Subtasks) ایجاد میکند. هر وظیفه با یک «فریم کلیدی» (Keyframe) مبنیسازی (Grounding) میشود تا هدف دقیقاً مشخص گردد.
- سیاست سطح پایین (Low-Level Policy): حرکات فیزیکی لازم برای اجرای هر زیر-وظیفه را مدیریت میکند.
این معماری فرضیه قدیمی مبنی بر اینکه زبان تنها «منبع حقیقت» (Ground Truth) برای درک قصد است را میشکند. با تبدیل نگاه و نمای POV به ورودیهای اصلی، بار شناختی اپراتور کاهش یافته و قابلیت اطمینان ربات در سناریوهای «سیگنال کوتاه» افزایش مییابد. استفاده از فریمهای کلیدی برای مبنیسازی، دقیقاً همان مشکلی را حل میکند که مدلهای چندوجهی پایانبه-پایان (End-to-End) با آن دستوپنجه نرم میکردند.
گام بعدی شما
- بررسی کد منبع پروژه برای درک لایهی سیاستهای سلسلهمراتب.
- تحلیل ویدئوهای نمایش ربات واقعی برای سنجش دقت استخراج قصد.
- دنبال کردن نتایج آزمایشها در محیطهای غیرمحدود با حضور چندین انسان.
اما چالش واقعی در مقیاسپذیری این سیستم برای محیطهای شلوغ است؛ آنچه را که در مورد مدیریت تداخلات انسانی در رباتیک میدانیم، در گزارش بعدی بررسی خواهیم کرد.


گفتگو