بنچمارک EngVQA: پرده‌برداری از شکاف استدلالی مدل‌های چندوجهی در مسائل مهندسی

اگر امروز به یک مدل هوش مصنوعی اعتماد کنید تا یک نقشه فنی پیچیده را تحلیل یا تأیید کند، در واقع در حال قمار روی قوانین فیزیک هستید. واقعیت این است که مدل‌های پیشرو فعلی، علی‌رغم ظاهر مطمئن، در تفکر مهندسی شکست می‌خورند.

مدل‌های بینایی-زبان (Vision-Language Models یا VLM) اکنون در بسیاری از حوزه‌ها ادغام شده‌اند، اما استدلال مهندسی فراتر از تشخیص الگوهاست و نیازمند پایبندی سخت‌گیرانه به اصول فیزیکی است. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی پایداری مدل‌های استدلالی (Reasoning Models) اشاره کردیم، شکاف بین «درست به نظر رسیدن» و «صحیح بودن» در کاربردهای تخصصی عمیق‌تر از آن است که با افزایش ساده‌ی داده‌ها پوشانده شود.

طبق گزارشی که در ۱۰ ژوئن ۲۰۲۶ در arXiv.org منتشر شد، پژوهشگران بنچمارک EngVQA را معرفی کرده‌اند. این ارزیابی چندوجهی برای افشای شکاف بین پاسخ‌های عمومی و الزامات سخت‌گیرانه حل مسائل فنی طراحی شده است. جزئیات فنی این مطالعه عبارتند از:

مجموعه‌داده شامل ۶۹۶ مسئله در ۵ حوزه مختلف مهندسی است.
استفاده از یک چارچوب ارزیابی خودکار ۸ مرحله‌ای برای تحلیل هر گام از فرآیند استدلال.
دستیابی به همبستگی پیرسون ۰.۹۷۵ در مقیاس ۱۰ امتیازی هنگام اعتبارسنجی انسانی، که نشان‌دهنده دقت بالای سیستم ارزیابی در شناسایی خطاهای منطقی است.

به باور نویسندگان این مقاله، ما را با یک «سراب مهارت» مواجه هستیم. تحلیل مرحله‌به‌مرحله نشان می‌دهد حتی زمانی که مدل به پاسخ نهایی درست می‌رسد، منطق میانی او اغلب شکسته و متناقض است. این موضوع ثابت می‌کند که قوانین مقیاس‌پذیری (Scaling Laws) برای چندوجهی عمومی، هنوز پاسخگوی نیاز به «سازگاری فیزیکی» در استدلال نیستند.

گام بعدی شما

پژوهشگران باید بررسی کنند آیا تنظیم دقیق (Fine-tuning) روی زنجیره‌های مهندسی مصنوعی می‌تواند این شکاف را پر کند یا خیر.
توسعه‌دهندگان باید به دنبال ایجاد primitives معماری جدید برای استدلال فیزیکی باشند تا VLMها برای کاربردهای حرفه‌ای قابل اتکا شوند.

اما این ضعف در استدلال منطقی تنها بخشی از ماجراست؛ تأثیر گلوگاه‌های سخت‌افزاری بر سرعت استنتاج این مدل‌ها را در گزارش بعدی بررسی خواهیم کرد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

مجموعه‌داده شامل ۶۹۶ مسئله در ۵ حوزه مختلف مهندسی است.
استفاده از یک چارچوب ارزیابی خودکار ۸ مرحله‌ای برای تحلیل هر گام از فرآیند استدلال.
دستیابی به همبستگی پیرسون ۰.۹۷۵ در مقیاس ۱۰ امتیازی هنگام اعتبارسنجی انسانی، که نشان‌دهنده دقت بالای سیستم ارزیابی در شناسایی خطاهای منطقی است.

گام بعدی شما

پژوهشگران باید بررسی کنند آیا تنظیم دقیق (Fine-tuning) روی زنجیره‌های مهندسی مصنوعی می‌تواند این شکاف را پر کند یا خیر.
توسعه‌دهندگان باید به دنبال ایجاد primitives معماری جدید برای استدلال فیزیکی باشند تا VLMها برای کاربردهای حرفه‌ای قابل اتکا شوند.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

بنچمارک EngVQA: پرده‌برداری از شکاف استدلالی مدل‌های چندوجهی در مسائل مهندسی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

بنچمارک EngVQA: پرده‌برداری از شکاف استدلالی مدل‌های چندوجهی در مسائل مهندسی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

بنچمارک EngVQA: پرده‌برداری از شکاف استدلالی مدل‌های چندوجهی در مسائل مهندسی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

بنچمارک EngVQA: پرده‌برداری از شکاف استدلالی مدل‌های چندوجهی در مسائل مهندسی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران