پژوهش تازهای از arxiv.org شواهد تجربی ارائه کرده که نشان میدهد GPT-4o میتواند در نمرهدهی پاسخهای دستنویس آزمون فیزیک به سطح قابلیت اطمینان انسانی دست یابد و راهحلی عملی برای چالشهای طولانیمدت تصحیح دستی در حوزه آموزش STEM ارائه دهد.
این پژوهش بهطور مشخص بررسی کرد که چگونه طراحی معیارهای ارزیابی و پیکربندیهای LLM بر قابلیت اطمینان نمرهدهی در سطوح مختلف عملکرد تأثیر میگذارند. بیست پاسخ واقعی آزمون بهصورت دستنویس در دو دور توسط چهار مدرس و مدل هوش مصنوعی با استفاده از معیارهای مهارتمحور در سطوح مختلف تفکیکپذیری تحلیلی نمرهدهی شدند. تیم تحقیقاتی قالب درخواست و تنظیمات دما را بهصورت نظاممند تغییر داد تا اثرات هر یک را بهطور مجزا بررسی کند.
نتایج نشان داد که میزان توافق انسان و هوش مصنوعی در نمرههای کلی با قابلیت اطمینان بین ارزیابان انسانی قابل مقایسه است. با این حال، این توافق در همه انواع پاسخها یکسان نبود. پاسخهای با عملکرد بالا با استدلال روشن و پاسخهای ضعیف با خطاهای بنیادی، بالاترین میزان همسویی بین مدرسان و GPT-4o را نشان دادند. قابلیت اطمینان برای پاسخهای میانی که شامل استدلال ناقص یا مبهم بودند، بهطور محسوسی کاهش یافت؛ جایی که خود انسانها نیز تمایل بیشتری به اختلاف نظر دارند.
تحلیلهای سطح معیار، بینش مهم دیگری را آشکار کرد: همسویی در مهارتهای مفهومی با تعریف روشن قویتر از قضاوتهای رویهای گسترده بود. این نشان میدهد که مدلهای هوش مصنوعی هنگام ارزیابی معیارهای مجزا و بهخوبی مشخص شده، بهترین عملکرد را دارند تا ارزیابیهای کلی از فرایندهای حل مسئله پیچیده.
شاید مهمترین یافته قابل اجرا، تأثیر تفکیکپذیری معیارها بود. معیار دقیقتر و مبتنی بر چکلیست، سازگاری را بهطور قابل توجهی در مقایسه با رویکردهای نمرهدهی کلی بهبود بخشید. این یافته فرض رایج مبنی بر اینکه درخواستهای پیچیده یا تنظیم دقیق دما عامل اصلی قابلیت اطمینان هستند را به چالش میکشد. در عوض، مطالعه نتیجه میگیرد که نمرهدهی قابل اعتماد با کمک هوش مصنوعی در گرو معیارهای روشن و ساختارمند است، در حالی که قالب درخواست نقش ثانویه و تنظیمات دما تأثیر نسبتاً محدودی دارد.
برای جامعه هوش مصنوعی و یادگیری ماشین، این پژوهش توصیههای طراحی کاربردی برای پیادهسازی نمرهدهی با کمک LLM در بافتهای آموزشی ارائه میدهد. نهادهایی که قصد استفاده از ابزارهای تصحیح هوشمند را دارند، باید سرمایهگذاری بیشتری روی توسعه معیارهای ارزیابی انجام دهند تا مهندسی درخواست یا پیکربندی مدل. رویکرد مطالعه در مقایسه توافق انسان و هوش مصنوعی با قابلیت اطمینان بین ارزیابان انسانی، چارچوبی دقیق برای ارزیابی سیستمهای مشابه در سایر حوزههای STEM فراهم میکند.

گفتگو