تحقیق جدید: عملکرد مدل‌های زبانی با تغییرات ظریف در پرامپت تا ۶۱.۸٪ کاهش می‌یابد

مقاله‌ای پژوهشی تازه، فرضیه ارتباط مستقیم بین نمرات بالای معیارهای ارزیابی و عملکرد قابل اعتماد هوش مصنوعی را به چالش کشیده است. این مطالعه که با عنوان «بازنگری در اعتمادپذیری مدل‌های زبانی در پیروی از دستورالعمل‌ها» در سایت arxiv.org منتشر شده، چارچوب ارزیابی نوینی به نام IFEval++ را معرفی می‌کند. هدف این چارچوب، آزمودن توانایی مدل‌های زبانی بزرگ در حفظ کارآمدی یکسان در برابر پرامپت‌های کاربرانی است که معنای مشابهی دارند اما از نظر نحوی متفاوتند.

این پژوهش یک شکاف اساسی در شیوه ارزیابی فعلی سیستم‌های هوش مصنوعی را شناسایی کرده است. در حالی که مدل‌های زبانی پیشرفته در معیارهای سنتی مانند IFEval به دقت نزدیک به حداکثر دست می‌یابند، این نمرات قادر نیستند تنوع واقعی در شیوه بیان درخواست‌ها توسط کاربران را منعکس کنند. در عمل، کاربران اغلب سوالات خود را بازنویسی می‌کنند، چارچوب زمینه‌ای را تغییر می‌دهند یا فرمولاسیون وظیفه را اصلاح می‌کنند، اما انتظار نتایج یکسانی دارند.

برای پرداختن به این مسئله، تیم تحقیقاتی یک خط لوله خودکار طراحی کرده که «پرامپت‌های خویشاوند» تولید می‌کند. اینها تغییراتی از یک هدف بنیادین واحد هستند که آزمون می‌کنند آیا مدل‌ها واقعاً دستورات را درک می‌کنند یا صرفاً الگوهای خاصی را شناسایی می‌کنند. آن‌ها معیار جدیدی به نام reliable@k را معرفی کرده‌اند که سازگاری عملکرد را در برابر این تغییرات پرامپت کمّی‌سازی می‌کند.

یافته‌ها یک مشکل جدی در اعتمادپذیری را آشکار ساخته‌اند. در میان ۴۶ مدل آزموده‌شده (۲۰ اختصاصی و ۲۶ متن‌باز)، عملکرد تا ۶۱.۸٪ کاهش یافت وقتی با تغییرات ظریف در پرامپت مواجه شدند. این بدان معناست که مدلی که در آزمون‌های کنترل‌شده بدون نقص به نظر می‌رسد، ممکن است هنگام استقرار با کاربران واقعی که به‌طور طبیعی زبان خود را تغییر می‌دهند، به‌صورت خاموش شکست بخورد.

پژوهشگران، این «اعتمادپذیری ظریف‌محور» را بُعدی حیاتی اما کمتر بررسی‌شده از قابلیت اعتماد هوش مصنوعی معرفی می‌کنند. فراتر از مستندسازی مشکل، مقاله سه راهکار بهبود بالقوه را بررسی می‌کند، هرچند جزئیات خاص نیازمند مطالعه کامل مقاله است.

پیامدهای این تحقیق فراتر از علاقه دانشگاهی است. برای سازمان‌هایی که مدل‌های زبانی را در خدمات مشتری، تولید محتوا یا پشتیبانی تصمیم‌گیری به‌کار می‌گیرند، این پژوهش نشان می‌دهد که مدل‌های بهینه‌شده برای معیارها ممکن است در محیط‌های عملیاتی که ورودی کاربر ذاتاً متنوع است، عملکرد ضعیفی داشته باشند. نویسندگان استدلال می‌کنند که جابه‌جایی تمرکز ارزیابی به سمت سازگاری در برابر تغییرات پرامپت، گامی ضروری برای ساخت سیستم‌های هوش مصنوعی قابل اعتماد است.

کد، مجموعه داده معیار و معیار reliable@k به‌صورت عمومی در دسترس هستند و به سایر پژوهشگران امکان بازتولید یافته‌ها و آزمودن مدل‌های جدید در برابر این چارچوب را می‌دهند.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تحقیق جدید: عملکرد مدل‌های زبانی با تغییرات ظریف در پرامپت تا ۶۱.۸٪ کاهش می‌یابد

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تحقیق جدید: عملکرد مدل‌های زبانی با تغییرات ظریف در پرامپت تا ۶۱.۸٪ کاهش می‌یابد

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تحقیق جدید: عملکرد مدل‌های زبانی با تغییرات ظریف در پرامپت تا ۶۱.۸٪ کاهش می‌یابد

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تحقیق جدید: عملکرد مدل‌های زبانی با تغییرات ظریف در پرامپت تا ۶۱.۸٪ کاهش می‌یابد

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران