مقالهای پژوهشی تازه، فرضیه ارتباط مستقیم بین نمرات بالای معیارهای ارزیابی و عملکرد قابل اعتماد هوش مصنوعی را به چالش کشیده است. این مطالعه که با عنوان «بازنگری در اعتمادپذیری مدلهای زبانی در پیروی از دستورالعملها» در سایت arxiv.org منتشر شده، چارچوب ارزیابی نوینی به نام IFEval++ را معرفی میکند. هدف این چارچوب، آزمودن توانایی مدلهای زبانی بزرگ در حفظ کارآمدی یکسان در برابر پرامپتهای کاربرانی است که معنای مشابهی دارند اما از نظر نحوی متفاوتند.
این پژوهش یک شکاف اساسی در شیوه ارزیابی فعلی سیستمهای هوش مصنوعی را شناسایی کرده است. در حالی که مدلهای زبانی پیشرفته در معیارهای سنتی مانند IFEval به دقت نزدیک به حداکثر دست مییابند، این نمرات قادر نیستند تنوع واقعی در شیوه بیان درخواستها توسط کاربران را منعکس کنند. در عمل، کاربران اغلب سوالات خود را بازنویسی میکنند، چارچوب زمینهای را تغییر میدهند یا فرمولاسیون وظیفه را اصلاح میکنند، اما انتظار نتایج یکسانی دارند.
{{img:0}}
برای پرداختن به این مسئله، تیم تحقیقاتی یک خط لوله خودکار طراحی کرده که «پرامپتهای خویشاوند» تولید میکند. اینها تغییراتی از یک هدف بنیادین واحد هستند که آزمون میکنند آیا مدلها واقعاً دستورات را درک میکنند یا صرفاً الگوهای خاصی را شناسایی میکنند. آنها معیار جدیدی به نام reliable@k را معرفی کردهاند که سازگاری عملکرد را در برابر این تغییرات پرامپت کمّیسازی میکند.
{{img:1}}
یافتهها یک مشکل جدی در اعتمادپذیری را آشکار ساختهاند. در میان ۴۶ مدل آزمودهشده (۲۰ اختصاصی و ۲۶ متنباز)، عملکرد تا ۶۱.۸٪ کاهش یافت وقتی با تغییرات ظریف در پرامپت مواجه شدند. این بدان معناست که مدلی که در آزمونهای کنترلشده بدون نقص به نظر میرسد، ممکن است هنگام استقرار با کاربران واقعی که بهطور طبیعی زبان خود را تغییر میدهند، بهصورت خاموش شکست بخورد.
پژوهشگران، این «اعتمادپذیری ظریفمحور» را بُعدی حیاتی اما کمتر بررسیشده از قابلیت اعتماد هوش مصنوعی معرفی میکنند. فراتر از مستندسازی مشکل، مقاله سه راهکار بهبود بالقوه را بررسی میکند، هرچند جزئیات خاص نیازمند مطالعه کامل مقاله است.
{{img:2}}
پیامدهای این تحقیق فراتر از علاقه دانشگاهی است. برای سازمانهایی که مدلهای زبانی را در خدمات مشتری، تولید محتوا یا پشتیبانی تصمیمگیری بهکار میگیرند، این پژوهش نشان میدهد که مدلهای بهینهشده برای معیارها ممکن است در محیطهای عملیاتی که ورودی کاربر ذاتاً متنوع است، عملکرد ضعیفی داشته باشند. نویسندگان استدلال میکنند که جابهجایی تمرکز ارزیابی به سمت سازگاری در برابر تغییرات پرامپت، گامی ضروری برای ساخت سیستمهای هوش مصنوعی قابل اعتماد است.
کد، مجموعه داده معیار و معیار reliable@k بهصورت عمومی در دسترس هستند و به سایر پژوهشگران امکان بازتولید یافتهها و آزمودن مدلهای جدید در برابر این چارچوب را میدهند.

گفتگو