عملکرد GPT-4o در نمره‌دهی آزمون فیزیک هم‌سطح با ارزیابی انسانی

پژوهش تازه‌ای از arxiv.org شواهد تجربی ارائه کرده که نشان می‌دهد GPT-4o می‌تواند در نمره‌دهی پاسخ‌های دست‌نویس آزمون فیزیک به سطح قابلیت اطمینان انسانی دست یابد و راه‌حلی عملی برای چالش‌های طولانی‌مدت تصحیح دستی در حوزه آموزش STEM ارائه دهد.

این پژوهش به‌طور مشخص بررسی کرد که چگونه طراحی معیارهای ارزیابی و پیکربندی‌های LLM بر قابلیت اطمینان نمره‌دهی در سطوح مختلف عملکرد تأثیر می‌گذارند. بیست پاسخ واقعی آزمون به‌صورت دست‌نویس در دو دور توسط چهار مدرس و مدل هوش مصنوعی با استفاده از معیارهای مهارت‌محور در سطوح مختلف تفکیک‌پذیری تحلیلی نمره‌دهی شدند. تیم تحقیقاتی قالب درخواست و تنظیمات دما را به‌صورت نظام‌مند تغییر داد تا اثرات هر یک را به‌طور مجزا بررسی کند.

نتایج نشان داد که میزان توافق انسان و هوش مصنوعی در نمره‌های کلی با قابلیت اطمینان بین ارزیابان انسانی قابل مقایسه است. با این حال، این توافق در همه انواع پاسخ‌ها یکسان نبود. پاسخ‌های با عملکرد بالا با استدلال روشن و پاسخ‌های ضعیف با خطاهای بنیادی، بالاترین میزان همسویی بین مدرسان و GPT-4o را نشان دادند. قابلیت اطمینان برای پاسخ‌های میانی که شامل استدلال ناقص یا مبهم بودند، به‌طور محسوسی کاهش یافت؛ جایی که خود انسان‌ها نیز تمایل بیشتری به اختلاف نظر دارند.

تحلیل‌های سطح معیار، بینش مهم دیگری را آشکار کرد: همسویی در مهارت‌های مفهومی با تعریف روشن قوی‌تر از قضاوت‌های رویه‌ای گسترده بود. این نشان می‌دهد که مدل‌های هوش مصنوعی هنگام ارزیابی معیارهای مجزا و به‌خوبی مشخص شده، بهترین عملکرد را دارند تا ارزیابی‌های کلی از فرایندهای حل مسئله پیچیده.

شاید مهم‌ترین یافته قابل اجرا، تأثیر تفکیک‌پذیری معیارها بود. معیار دقیق‌تر و مبتنی بر چک‌لیست، سازگاری را به‌طور قابل توجهی در مقایسه با رویکردهای نمره‌دهی کلی بهبود بخشید. این یافته فرض رایج مبنی بر اینکه درخواست‌های پیچیده یا تنظیم دقیق دما عامل اصلی قابلیت اطمینان هستند را به چالش می‌کشد. در عوض، مطالعه نتیجه می‌گیرد که نمره‌دهی قابل اعتماد با کمک هوش مصنوعی در گرو معیارهای روشن و ساختارمند است، در حالی که قالب درخواست نقش ثانویه و تنظیمات دما تأثیر نسبتاً محدودی دارد.

برای جامعه هوش مصنوعی و یادگیری ماشین، این پژوهش توصیه‌های طراحی کاربردی برای پیاده‌سازی نمره‌دهی با کمک LLM در بافت‌های آموزشی ارائه می‌دهد. نهادهایی که قصد استفاده از ابزارهای تصحیح هوشمند را دارند، باید سرمایه‌گذاری بیشتری روی توسعه معیارهای ارزیابی انجام دهند تا مهندسی درخواست یا پیکربندی مدل. رویکرد مطالعه در مقایسه توافق انسان و هوش مصنوعی با قابلیت اطمینان بین ارزیابان انسانی، چارچوبی دقیق برای ارزیابی سیستم‌های مشابه در سایر حوزه‌های STEM فراهم می‌کند.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

عملکرد GPT-4o در نمره‌دهی آزمون فیزیک هم‌سطح با ارزیابی انسانی

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

عملکرد GPT-4o در نمره‌دهی آزمون فیزیک هم‌سطح با ارزیابی انسانی

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

عملکرد GPT-4o در نمره‌دهی آزمون فیزیک هم‌سطح با ارزیابی انسانی

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

عملکرد GPT-4o در نمره‌دهی آزمون فیزیک هم‌سطح با ارزیابی انسانی

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران