افزایش ۱۴.۵ درصدی دقت پیش‌بینی عبور عابر با مدل Qwen3-VL-2B

آیا هوش مصنوعی می‌تواند پیش از آنکه عابری قدم در خیابان بگذارد، قصد او را بخواند؟ با استفاده از مدل Qwen3-VL-2B، پژوهشگران دقت رمزگشایی قصد عابر پیاده را به سطح جدیدی از SOTA رسانده‌اند و توانسته‌اند ۱۴.۵ درصد بهتر از مدل‌های پایه ترنسفورمری عمل کنند.

پیش‌بینی حرکت انسان، «جام مقدس» ایمنی در خودروهای خودران است. اگرچه دید اول‌شخص (Egocentric) بهترین چشم‌انداز را برای تصمیم‌گیری فراهم می‌کند، اما مدل‌های زبانی چندوجهی (Vision Language Models - VLMs) استاندارد معمولاً در استدلال‌های سطح بالا برای تفسیر رفتارهای پیچیده ترافیکی دچار مشکل می‌شوند. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی مدل‌های بینایی-زبانی اشاره کردیم، شکاف میان تشخیص تصویر و استدلال معنایی همواره بزرگ‌ترین چالش این حوزه بوده است.

طبق گزارش منتشر شده در ۹ ژوئن ۲۰۲۶ در arxiv.org، تیم پژوهشی مسئله‌ی رمزگشایی قصد را به عنوان یک مسئله‌ی پرسش و پاسخ بصری (VQA) با پاسخ بسته فرموله کردند. یافته‌های کلیدی این مطالعه عبارتند از:

مدل‌های VLM در حالت صفر-نمونه (Zero-shot) تنها بهبودهای اندکی نسبت به حدس تصادفی داشتند.
تنظیم دقیق پارامتر-بهینه (Parameter-efficient fine-tuning - PEFT) منجر به جهش ۹ درصدی در دقت نسبت به بنچمارک‌های تخصصی ترنسفورمری شد.
ادغام داده‌های حرکت خودمحور (Ego-motion)، حرکت خودرو و داده‌های نگاه چشم (Eye-gaze)، عملکرد پیش‌بینی را بهینه کرد.
پیکربندی Qwen3-VL-2B زمانی که توسط سیگنال‌های نگاه و حرکت هدایت شد، به بالاترین سطح عملکرد دست یافت.

این نتیجه، تکیه‌ی این حوزه را از معماری‌های صلب و هایپر-تخصصی به سمت مدل‌های چندوجهی عمومی می‌برد که از طریق تنظیم دقیق، «تخصصی» شده‌اند. به باور تحلیلگران، این موضوع ثابت می‌کند که شکاف استدلالی در مدل‌های VLM برای ایمنی ترافیک، یک محدودیت ساختاری نیست، بلکه مسئله‌ی همراستاسازی داده‌هاست که با استفاده از نشانه‌های انسانی مانند نگاه چشم قابل حل است.

گام بعدی شما

بررسی بنچمارک‌های آتی در مورد استقرار این مدل‌ها روی سخت‌افزارهای کم‌مصرف.
آزمایش ادغام داده‌های حسی (Sensing data) در خط لوله‌های استنتاج مدل‌های VLM.
مطالعه‌ی تأثیر مدل‌های ۲ میلیارد پارامتری در کاهش تأخیر (Latency) سیستم‌های On-board.

اما چالش واقعی در سخت‌افزار است؛ برای بررسی محدودیت‌های استنتاج در لبه، تحلیل ما درباره‌ی تراشه‌های نسل جدید را بخوانید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

مدل‌های VLM در حالت صفر-نمونه (Zero-shot) تنها بهبودهای اندکی نسبت به حدس تصادفی داشتند.
تنظیم دقیق پارامتر-بهینه (Parameter-efficient fine-tuning - PEFT) منجر به جهش ۹ درصدی در دقت نسبت به بنچمارک‌های تخصصی ترنسفورمری شد.
ادغام داده‌های حرکت خودمحور (Ego-motion)، حرکت خودرو و داده‌های نگاه چشم (Eye-gaze)، عملکرد پیش‌بینی را بهینه کرد.
پیکربندی Qwen3-VL-2B زمانی که توسط سیگنال‌های نگاه و حرکت هدایت شد، به بالاترین سطح عملکرد دست یافت.

گام بعدی شما

بررسی بنچمارک‌های آتی در مورد استقرار این مدل‌ها روی سخت‌افزارهای کم‌مصرف.
آزمایش ادغام داده‌های حسی (Sensing data) در خط لوله‌های استنتاج مدل‌های VLM.
مطالعه‌ی تأثیر مدل‌های ۲ میلیارد پارامتری در کاهش تأخیر (Latency) سیستم‌های On-board.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

افزایش ۱۴.۵ درصدی دقت پیش‌بینی عبور عابر با مدل Qwen3-VL-2B

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

افزایش ۱۴.۵ درصدی دقت پیش‌بینی عبور عابر با مدل Qwen3-VL-2B

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

افزایش ۱۴.۵ درصدی دقت پیش‌بینی عبور عابر با مدل Qwen3-VL-2B

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

افزایش ۱۴.۵ درصدی دقت پیش‌بینی عبور عابر با مدل Qwen3-VL-2B

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران