محققان روش «کاپو» را برای رفع اعتماد بیش از حد مدل‌های زبانی ارائه دادند

گروهی از محققان روش آموزشی نوآورانه‌ای به نام «بهینه‌سازی خط‌مشی آگاه از کالیبراسیون» (CAPO) معرفی کرده‌اند که مشکلات کالیبراسیون مدل‌های زبانی استدلالی فعلی را برطرف می‌کند. این پژوهش که در arxiv.org منتشر شده، نشان می‌دهد که روش CAPO می‌تواند به‌طور قابل توجهی نحوه ارزیابی اطمینان مدل‌های هوش مصنوعی از خودشان را بهبود بخشد، بدون آنکه قابلیت‌های استدلالی آن‌ها را قربانی کند یا حتی در برخی موارد آن‌ها را ارتقا دهد.

مشکل اصلی از تکنیک آموزشی «بهینه‌سازی سیاست نسبی گروهی» (GRPO) نشأت می‌گیرد؛ روشی پرکاربرد که استدلال مدل‌های زبانی بزرگ را تقویت می‌کند اما به‌طور مداوم اعتماد بیش از حد را القا می‌کند. در این پدیده، پاسخ‌های نادرست مدل به‌طور متناقض امتیازات سردرگمی (perplexity) پایین‌تری نسبت به پاسخ‌های صحیح دریافت می‌کنند که منجر به کاهش کالیبراسیون نسبی می‌شود. تلاش‌های پیشین برای حل این مشکل، پژوهشگران را مجبور به معامله‌ای ناخوشایند کرده بود: یا بهبود اندک کالیبراسیون با پذیرش افت دقت، یا حفظ دقت به قیمت کالیبراسیون نادرست.

محققان ریشه این مشکل را در تخمین مزیت نادیده‌گیرنده عدم قطعیت در الگوریتم‌های GRPO شناسایی کردند که ذاتاً گرادیان‌های بهینه‌سازی را با کالیبراسیون صحیح ناهمسو می‌کند. راه‌حل ارائه‌شده، تابع زیان جایگزین AUC لاجستیکی است که از نظر تئوری سازگار بوده و حد پشیمانی (regret bound) را می‌پذیرد. این روش همچنین از مکانیزم پوشش نویز برای تضمین پویایی یادگیری پایدار در فرآیند آموزش بهره می‌برد.

نتایج آزمایشی روی معیارهای متعدد استدلال ریاضی، رویکرد مذکور را تأیید می‌کند. مدل CAPO-1.5B بهبود کالیبراسیون تا ۱۵ درصد را در مقایسه با روش‌های پایه نشان می‌دهد و در عین حال دقتی قابل مقایسه یا بهتر از GRPO استاندارد دست می‌یابد. این روش همچنین دقت را در وظایف مقیاس‌بندی زمان استنتاج تا ۵ درصد افزایش می‌دهد. شاید مهم‌تر از همه، زمانی که مدل اجازه دارد در شرایط اطمینان پایین از پاسخ‌گویی خودداری کند، به توازن بهینه پارتویی بین دقت و پوشش دست می‌یابد؛ قابلیتی با پیامدهای مهم برای کاهش توهم در سیستم‌های هوش مصنوعی.

پیامدها برای جامعه هوش مصنوعی و یادگیری ماشین قابل توجه است. با گسترش استقرار مدل‌های زبانی بزرگ در کاربردهای پرریسک که پاسخ‌های نادرست با اطمینان بالا خطرناک هستند، بهبود کالیبراسیون برای ایمنی و اطمینان‌پذیری حیاتی می‌شود. بنیان‌های تئوری CAPO، از جمله ضمانت حد پشیمانی، رویکردی اصولی ارائه می‌دهند که می‌تواند متدولوژی‌های آموزشی آینده را فراتر از وظایف استدلالی Inform کند.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

محققان روش «کاپو» را برای رفع اعتماد بیش از حد مدل‌های زبانی ارائه دادند

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

محققان روش «کاپو» را برای رفع اعتماد بیش از حد مدل‌های زبانی ارائه دادند

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

محققان روش «کاپو» را برای رفع اعتماد بیش از حد مدل‌های زبانی ارائه دادند

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

محققان روش «کاپو» را برای رفع اعتماد بیش از حد مدل‌های زبانی ارائه دادند

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران