تصور کنید یک مدل هوش مصنوعی با اطمینان کامل، وضعیت یک بیمار را «پایدار» اعلام کند، در حالی که نشانههای حیاتی در حال سقوط هستند. این همان شکاف مرگباری است که چارچوب TRIAGE قصد پر کردن آن را دارد.
بسیاری از مدلهای زبانی بزرگ (LLM) در محیطهای پزشکی دچار «قطبیت ریسک» میشوند؛ یعنی ریسکهای درجهبندی شدهی بالینی را به حدسهای باینری (صفر و یک) و بیشازحد مطمئن تبدیل میکنند. بر اساس مستندات منتشر شده، TRIAGE با ارائه امتیازات ریسک پیوسته به جای پاسخهای قطعی، این مشکل را حل کرده و خطای کالیبراسیون را تا ۸۱٪ کاهش داده است.
همانطور که در پوشش پیشین ما از NutriMLLM دیدیم، استفاده از استراتژیهای تخصصی برای دادههای حساس پزشکی، تنها راه عبور از محدودیتهای مدلهای عمومی است. سیستمهای هشدار پیشبندی بالینی بر دادههای سری زمانی پزشکی با نمونهبرداری نامنظم (ISMTS) تکیه میکنند، اما مدلهای فعلی در ارائه امتیازات دقیق و کالیبره شدهای که پزشکان برای تریاژ بیماران نیاز دارند، شکست میخورند.
طبق گزارشی که در ۹ ژوئن ۲۰۲۶ در پلتفرم arxiv.org منتشر شد، TRIAGE از «استدلال دیالکتیکی» (Dialectical Reasoning) استفاده میکند. این سازوکار مدل را مجبور میکند تا استدلالهای متضاد برای پیامدهای بالینی مختلف ایجاد کند و به جای جهش سریع به یک نتیجه، شواهد موافق و مخالف هر ریسک را بسنجد. نتایج کلیدی این رویکرد عبارتند از:
- بهبود ۳.۳ درصدی بهطور متوسط در معیار AUPRC.
- کاهش ۸۱ درصدی خطای کالیبراسیون در مقایسه با مدلهای پایه.
- افزایش ۲۰ درصدی کیفیت استدلال بالینی (تأیید شده توسط ارزیابی LLM-as-a-judge).
این تغییر رویکرد، مسیر دستیابی به هوش مصنوعی توضیحپذیر (XAI) را در کلینیکها هموار میکند. با تبدیل خروجیهای «جعبهسیاه» به توزیعهای ریسک مستند، پزشکان میتوانند خروجیهای مدل را به چالش بکشند و بر اساس منطقِ مدل، تصمیم بگیرند.
گام بعدی شما
- پژوهشگران حوزه سلامت باید کد منبع منتشر شده TRIAGE را برای تست روی مجموعه دادههای بومی خود بررسی کنند.
- توسعهدهندگان مدلهای پزشکی باید معیار AUPRC را در کنار خطای کالیبراسیون به عنوان شاخص اصلی ارزیابی قرار دهند.
- بررسی اثر استدلال دیالکتیکی بر کاهش توهمات مدل در تشخیصهای حساس بالینی.
اما چالش اصلی اکنون این است که آیا این رویکرد در محیطهای واقعی بالینی با دادههای نویزی نیز عملکرد مشابهی خواهد داشت یا خیر؛ این موضوع را در بررسیهای آتی دنبال خواهیم کرد.
گفتگو