آیا هوش مصنوعی میتواند پیش از آنکه عابری قدم در خیابان بگذارد، قصد او را بخواند؟ با استفاده از مدل Qwen3-VL-2B، پژوهشگران دقت رمزگشایی قصد عابر پیاده را به سطح جدیدی از SOTA رساندهاند و توانستهاند ۱۴.۵ درصد بهتر از مدلهای پایه ترنسفورمری عمل کنند.
پیشبینی حرکت انسان، «جام مقدس» ایمنی در خودروهای خودران است. اگرچه دید اولشخص (Egocentric) بهترین چشمانداز را برای تصمیمگیری فراهم میکند، اما مدلهای زبانی چندوجهی (Vision Language Models - VLMs) استاندارد معمولاً در استدلالهای سطح بالا برای تفسیر رفتارهای پیچیده ترافیکی دچار مشکل میشوند. همانطور که در تحلیلهای پیشین ما دربارهی مدلهای بینایی-زبانی اشاره کردیم، شکاف میان تشخیص تصویر و استدلال معنایی همواره بزرگترین چالش این حوزه بوده است.
طبق گزارش منتشر شده در ۹ ژوئن ۲۰۲۶ در arxiv.org، تیم پژوهشی مسئلهی رمزگشایی قصد را به عنوان یک مسئلهی پرسش و پاسخ بصری (VQA) با پاسخ بسته فرموله کردند. یافتههای کلیدی این مطالعه عبارتند از:
- مدلهای VLM در حالت صفر-نمونه (Zero-shot) تنها بهبودهای اندکی نسبت به حدس تصادفی داشتند.
- تنظیم دقیق پارامتر-بهینه (Parameter-efficient fine-tuning - PEFT) منجر به جهش ۹ درصدی در دقت نسبت به بنچمارکهای تخصصی ترنسفورمری شد.
- ادغام دادههای حرکت خودمحور (Ego-motion)، حرکت خودرو و دادههای نگاه چشم (Eye-gaze)، عملکرد پیشبینی را بهینه کرد.
- پیکربندی Qwen3-VL-2B زمانی که توسط سیگنالهای نگاه و حرکت هدایت شد، به بالاترین سطح عملکرد دست یافت.
این نتیجه، تکیهی این حوزه را از معماریهای صلب و هایپر-تخصصی به سمت مدلهای چندوجهی عمومی میبرد که از طریق تنظیم دقیق، «تخصصی» شدهاند. به باور تحلیلگران، این موضوع ثابت میکند که شکاف استدلالی در مدلهای VLM برای ایمنی ترافیک، یک محدودیت ساختاری نیست، بلکه مسئلهی همراستاسازی دادههاست که با استفاده از نشانههای انسانی مانند نگاه چشم قابل حل است.
گام بعدی شما
- بررسی بنچمارکهای آتی در مورد استقرار این مدلها روی سختافزارهای کممصرف.
- آزمایش ادغام دادههای حسی (Sensing data) در خط لولههای استنتاج مدلهای VLM.
- مطالعهی تأثیر مدلهای ۲ میلیارد پارامتری در کاهش تأخیر (Latency) سیستمهای On-board.
اما چالش واقعی در سختافزار است؛ برای بررسی محدودیتهای استنتاج در لبه، تحلیل ما دربارهی تراشههای نسل جدید را بخوانید.
گفتگو