چرا زبان دیگر معیار اصلی درک قصد کاربر توسط ربات‌ها نیست؟

تصور کنید رباتی را هدایت کنید که نیاز به هیچ دستور پیچیده‌ای ندارد و تنها با یک نگاه، متوجه هدف شما می‌شود. این یعنی پایان دوران وابستگی مطلق ربات‌ها به دستورات کلامی دقیق.

طبق تحلیل فنی منتشر شده در ۱۰ ژوئن ۲۰۲۶، چارچوب EDITH این رویکرد را عملیاتی کرده است. در حالی که اکثر سیستم‌های فعلی تمام بار ارتباط را بر دوش کاربر می‌اندازند، EDITH از سیگنال‌های غیرکلامی استفاده می‌کند. همان‌طور که در بررسی‌های پیشین ما درباره‌ی مدل‌های چندوجهی (Multimodal Models) اشاره کردیم، چالش اصلی همواره تبدیل داده‌های بصری پراکنده به اقدامات هدفمند بوده است.

این سیستم از سخت‌افزاری متشکل از عینک‌های هوشمند استفاده می‌کند تا نمای اول‌شخص و مسیر نگاه کاربر را به‌صورت آنی به ربات ارسال کند. برای مدیریت این داده‌های نویزی، پژوهشگران از یک سیاست سلسله‌مراتب (Hierarchical Policy) دو لایه استفاده کرده‌اند:

سیاست سطح بالا (High-Level Policy): قصد کاربر را استخراج کرده و فهرستی از زیر-وظایف (Subtasks) ایجاد می‌کند. هر وظیفه با یک «فریم کلیدی» (Keyframe) مبنی‌سازی (Grounding) می‌شود تا هدف دقیقاً مشخص گردد.
سیاست سطح پایین (Low-Level Policy): حرکات فیزیکی لازم برای اجرای هر زیر-وظیفه را مدیریت می‌کند.

این معماری فرضیه قدیمی مبنی بر اینکه زبان تنها «منبع حقیقت» (Ground Truth) برای درک قصد است را می‌شکند. با تبدیل نگاه و نمای POV به ورودی‌های اصلی، بار شناختی اپراتور کاهش یافته و قابلیت اطمینان ربات در سناریوهای «سیگنال کوتاه» افزایش می‌یابد. استفاده از فریم‌های کلیدی برای مبنی‌سازی، دقیقاً همان مشکلی را حل می‌کند که مدل‌های چندوجهی پایان‌به-پایان (End-to-End) با آن دست‌وپنجه نرم می‌کردند.

گام بعدی شما

بررسی کد منبع پروژه برای درک لایه‌ی سیاست‌های سلسله‌مراتب.
تحلیل ویدئوهای نمایش ربات واقعی برای سنجش دقت استخراج قصد.
دنبال کردن نتایج آزمایش‌ها در محیط‌های غیرمحدود با حضور چندین انسان.

اما چالش واقعی در مقیاس‌پذیری این سیستم برای محیط‌های شلوغ است؛ آنچه را که در مورد مدیریت تداخلات انسانی در رباتیک می‌دانیم، در گزارش بعدی بررسی خواهیم کرد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

سیاست سطح بالا (High-Level Policy): قصد کاربر را استخراج کرده و فهرستی از زیر-وظایف (Subtasks) ایجاد می‌کند. هر وظیفه با یک «فریم کلیدی» (Keyframe) مبنی‌سازی (Grounding) می‌شود تا هدف دقیقاً مشخص گردد.
سیاست سطح پایین (Low-Level Policy): حرکات فیزیکی لازم برای اجرای هر زیر-وظیفه را مدیریت می‌کند.

گام بعدی شما

بررسی کد منبع پروژه برای درک لایه‌ی سیاست‌های سلسله‌مراتب.
تحلیل ویدئوهای نمایش ربات واقعی برای سنجش دقت استخراج قصد.
دنبال کردن نتایج آزمایش‌ها در محیط‌های غیرمحدود با حضور چندین انسان.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا زبان دیگر معیار اصلی درک قصد کاربر توسط ربات‌ها نیست؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا زبان دیگر معیار اصلی درک قصد کاربر توسط ربات‌ها نیست؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا زبان دیگر معیار اصلی درک قصد کاربر توسط ربات‌ها نیست؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا زبان دیگر معیار اصلی درک قصد کاربر توسط ربات‌ها نیست؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران