اگر امروز به یک مدل هوش مصنوعی اعتماد کنید تا یک نقشه فنی پیچیده را تحلیل یا تأیید کند، در واقع در حال قمار روی قوانین فیزیک هستید. واقعیت این است که مدلهای پیشرو فعلی، علیرغم ظاهر مطمئن، در تفکر مهندسی شکست میخورند.
مدلهای بینایی-زبان (Vision-Language Models یا VLM) اکنون در بسیاری از حوزهها ادغام شدهاند، اما استدلال مهندسی فراتر از تشخیص الگوهاست و نیازمند پایبندی سختگیرانه به اصول فیزیکی است. همانطور که در تحلیلهای پیشین ما دربارهی پایداری مدلهای استدلالی (Reasoning Models) اشاره کردیم، شکاف بین «درست به نظر رسیدن» و «صحیح بودن» در کاربردهای تخصصی عمیقتر از آن است که با افزایش سادهی دادهها پوشانده شود.
طبق گزارشی که در ۱۰ ژوئن ۲۰۲۶ در arXiv.org منتشر شد، پژوهشگران بنچمارک EngVQA را معرفی کردهاند. این ارزیابی چندوجهی برای افشای شکاف بین پاسخهای عمومی و الزامات سختگیرانه حل مسائل فنی طراحی شده است. جزئیات فنی این مطالعه عبارتند از:
- مجموعهداده شامل ۶۹۶ مسئله در ۵ حوزه مختلف مهندسی است.
- استفاده از یک چارچوب ارزیابی خودکار ۸ مرحلهای برای تحلیل هر گام از فرآیند استدلال.
- دستیابی به همبستگی پیرسون ۰.۹۷۵ در مقیاس ۱۰ امتیازی هنگام اعتبارسنجی انسانی، که نشاندهنده دقت بالای سیستم ارزیابی در شناسایی خطاهای منطقی است.
به باور نویسندگان این مقاله، ما را با یک «سراب مهارت» مواجه هستیم. تحلیل مرحلهبهمرحله نشان میدهد حتی زمانی که مدل به پاسخ نهایی درست میرسد، منطق میانی او اغلب شکسته و متناقض است. این موضوع ثابت میکند که قوانین مقیاسپذیری (Scaling Laws) برای چندوجهی عمومی، هنوز پاسخگوی نیاز به «سازگاری فیزیکی» در استدلال نیستند.
گام بعدی شما
- پژوهشگران باید بررسی کنند آیا تنظیم دقیق (Fine-tuning) روی زنجیرههای مهندسی مصنوعی میتواند این شکاف را پر کند یا خیر.
- توسعهدهندگان باید به دنبال ایجاد primitives معماری جدید برای استدلال فیزیکی باشند تا VLMها برای کاربردهای حرفهای قابل اتکا شوند.
اما این ضعف در استدلال منطقی تنها بخشی از ماجراست؛ تأثیر گلوگاههای سختافزاری بر سرعت استنتاج این مدلها را در گزارش بعدی بررسی خواهیم کرد.


گفتگو