شما نمیتوانید ریسک یک توهم (Hallucination) در پرونده پزشکی را با عبارت «بهترین تلاش مدل» توجیه کنید؛ در محیطهای بالینی، یک خطای کوچک میتواند به قیمت جان بیمار تمام شود.
طبق گزارشی که در ۹ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، چارچوب جدیدی به نام CARE (Conformal Assessment for Risk Evaluation) توانسته است تعادلی ریاضیاتی میان ریسک باقیمانده و حجم بازبینی دستی ایجاد کند. این سیستم برخلاف روشهای سنتی که بر امتیازات تخمینی متکی بودند، یک لایه توثیق رسمی را به مدل زبانی بزرگ (LLM) اضافه میکند تا خطاهای احتمالی را پیشبینی کند.
همانطور که در تحلیلهای پیشین ما دربارهی چالشهای همراستاسازی (Alignment) در مدلهای تخصصی اشاره کردیم، دستیابی به دقت ۱۰۰ درصدی در مدلهای زاینده تقریباً غیرممکن است. CARE به جای تلاش برای حذف کامل خطا، آن را در کرانهای ریاضیاتی محصور میکند. این رویکرد بدون نیاز به بازآموزی یا تنظیم دقیق (Fine-tuning) مدل، به عنوان یک لایه پسرو عمل کرده و از دو کنترلکننده اصلی استفاده میکند:
- کنترلکننده توهم (Hallucination Controller): احتمال وجود جملات توهمزده و علامتنزده در سند را محدود میکند.
- کنترلکننده حذف (Omission Controller): سهم مورد انتظار از جزئیات پزشکی مهمی که در بازبینی ظاهر نشدهاند را کنترل میکند.
در یک مطالعه بالینی بر روی ۷۵ مورد بازبینی، این سیستم توانست شناسایی دادههای حذفشده را ۲۸.۶ درصد بهبود بخشد و همزمان تعداد جملات نامرتبط را تا ۵ برابر کمتر از روشهای رقیب علامتگذاری کند. این دستاورد نشان میدهد که میتوان مدل را از یک «تصمیمگیرنده اصلی» به یک «موتور پیشنهاددهنده» تبدیل کرد که در یک پوسته تاییدیه رسمی قرار دارد.
گام بعدی شما
- توسعهدهندگان ابزارهای پزشکی باید بررسی کنند که چگونه میتوان کنترلهای توزیع-ناپذیر (Distribution-free) را جایگزین امتیازات احتمالی ساده کنند.
- تحلیل اثر این لایه ایمنی بر روی مدلهای استدلالی (Reasoning Models) که خود دارای زنجیره تفکر هستند.
- بررسی امکان پیادهسازی لایههای مشابه در حوزههای حساس دیگر مانند حقوق و حسابرسی مالی.
اما این رویکرد در مقابل مدلهای استدلالی جدید چه عملکردی دارد؟ تحلیل ما دربارهی مدلهای Reasoning را بخوانید.
گفتگو