گروهی از محققان روش آموزشی نوآورانهای به نام «بهینهسازی خطمشی آگاه از کالیبراسیون» (CAPO) معرفی کردهاند که مشکلات کالیبراسیون مدلهای زبانی استدلالی فعلی را برطرف میکند. این پژوهش که در arxiv.org منتشر شده، نشان میدهد که روش CAPO میتواند بهطور قابل توجهی نحوه ارزیابی اطمینان مدلهای هوش مصنوعی از خودشان را بهبود بخشد، بدون آنکه قابلیتهای استدلالی آنها را قربانی کند یا حتی در برخی موارد آنها را ارتقا دهد.
مشکل اصلی از تکنیک آموزشی «بهینهسازی سیاست نسبی گروهی» (GRPO) نشأت میگیرد؛ روشی پرکاربرد که استدلال مدلهای زبانی بزرگ را تقویت میکند اما بهطور مداوم اعتماد بیش از حد را القا میکند. در این پدیده، پاسخهای نادرست مدل بهطور متناقض امتیازات سردرگمی (perplexity) پایینتری نسبت به پاسخهای صحیح دریافت میکنند که منجر به کاهش کالیبراسیون نسبی میشود. تلاشهای پیشین برای حل این مشکل، پژوهشگران را مجبور به معاملهای ناخوشایند کرده بود: یا بهبود اندک کالیبراسیون با پذیرش افت دقت، یا حفظ دقت به قیمت کالیبراسیون نادرست.
محققان ریشه این مشکل را در تخمین مزیت نادیدهگیرنده عدم قطعیت در الگوریتمهای GRPO شناسایی کردند که ذاتاً گرادیانهای بهینهسازی را با کالیبراسیون صحیح ناهمسو میکند. راهحل ارائهشده، تابع زیان جایگزین AUC لاجستیکی است که از نظر تئوری سازگار بوده و حد پشیمانی (regret bound) را میپذیرد. این روش همچنین از مکانیزم پوشش نویز برای تضمین پویایی یادگیری پایدار در فرآیند آموزش بهره میبرد.
نتایج آزمایشی روی معیارهای متعدد استدلال ریاضی، رویکرد مذکور را تأیید میکند. مدل CAPO-1.5B بهبود کالیبراسیون تا ۱۵ درصد را در مقایسه با روشهای پایه نشان میدهد و در عین حال دقتی قابل مقایسه یا بهتر از GRPO استاندارد دست مییابد. این روش همچنین دقت را در وظایف مقیاسبندی زمان استنتاج تا ۵ درصد افزایش میدهد. شاید مهمتر از همه، زمانی که مدل اجازه دارد در شرایط اطمینان پایین از پاسخگویی خودداری کند، به توازن بهینه پارتویی بین دقت و پوشش دست مییابد؛ قابلیتی با پیامدهای مهم برای کاهش توهم در سیستمهای هوش مصنوعی.
پیامدها برای جامعه هوش مصنوعی و یادگیری ماشین قابل توجه است. با گسترش استقرار مدلهای زبانی بزرگ در کاربردهای پرریسک که پاسخهای نادرست با اطمینان بالا خطرناک هستند، بهبود کالیبراسیون برای ایمنی و اطمینانپذیری حیاتی میشود. بنیانهای تئوری CAPO، از جمله ضمانت حد پشیمانی، رویکردی اصولی ارائه میدهند که میتواند متدولوژیهای آموزشی آینده را فراتر از وظایف استدلالی Inform کند.

گفتگو