اعتماد به توانایی مدلهای زبانی در بازبینی متون پزشکی، یک قمار خطرناک است؛ زیرا فصاحت زبانی این مدلها دقیقاً همان چیزی است که توهمات مرگبار را میپوشاند.
به نقل از گزارش منتشرشده در ۹ ژوئن ۲۰۲۶، معماری MedSci Skills با هدف حذف توهمات بالینی (Clinical Hallucinations) معرفی شده است. این سیستم به جای تکیه بر احتمال، از یک رویکرد «قطعیت در هر جای ممکن» برای تأیید متون علمی استفاده میکند.
همانطور که در تحلیل قبلی ما دربارهی چارچوب CAHL و بهینهسازی شکاف میان برنامهریز و اجراکننده اشاره کردیم، مشکل اساسی در گزارشهای پزشکی، «شکاف تأیید» است. در محیطهای حساس، تکیه بر یک مدل زبانی برای نقد خروجیهای خودش ناکافزاری است، زیرا نقاط کور مدل در همان توهمات با اعتمادبهنفس او نهفته است.
طبق مستندات این پروژه، سیستم از یک هماهنگکننده (Orchestrator) برای مدیریت ۴۳ مهارت تخصصی استفاده میکند. هسته این نوآوری، تاکسونومی گیتهای یکپارچگی (Integrity Gates) است که ارزانترین و قابلاعتمادترین بررسیها را در اولویت قرار میدهد:
- لایه قطعی (Deterministic Tier): شامل ۲۱ آشکارساز کتابخانهای که با استفاده از بررسیهای تکرارپذیر (مانند هشِ محتوا) واقعیات را تأیید میکنند.
- لایه متنی (Prose Tier): پروبهای مبتنی بر مدل زبانی بزرگ (LLM) که تنها زمانی به کار میروند که تفسیر انسانی اجتنابناپذیر باشد.
- توقف در صورت شکست (Halt-on-Failure): مکانیزم سختگیرانهای که در صورت شکست هر یک از بررسیهای یکپارچگی، کل گردش کار را متوقف میکند.
بر اساس بررسیهای انجامشده روی خط لولههای STARD، PRISMA و STROBE، گیتهای قطعی توانستند ۲۷ مورد از ۲۷ خطای تزریقشده را بدون هیچگونه مثبتکاذب (False Positive) شناسایی کنند. در مقابل، یک بازبین LLM تک-پرامپت تنها ۱۱ مورد از این خطاها را یافت و عمدتاً در شناسایی خطاهای کتابشناختی و نقصهای کد تولیدشده شکست خورد.
این چرخش از «مدل-بهعنوان-داور» به «کد-بهعنوان-داور»، فرض بنیادین حسابرسی هوش مصنوعی در علم را تغییر میدهد. این معماری با ایجاد یک ردپای قابلحسابرسی و تکرارپذیر، شواهدی را فراهم میکند که انسانها برای تأیید بازتولیدپذیری یک مقاله به آن نیاز دارند، به جای آنکه صرفاً به ادعای کیفیت یک مدل اعتماد کنند.
گام بعدی شما
- بررسی آرشیو MedSci Skills (v3.8.0) که تحت مجوز MIT منتشر شده تا گیتهای قطعی را در خط لولههای پیشنویس علمی پیادهسازی کنید.
- جایگزینی مراحل خود-ارزیابی (Self-critique) در سیستمهای RAG پزشکی با لایههای تأیید کد-محور.
- تحلیل اثر توقفهای سختگیرانه (Halt-on-Failure) بر نرخ پذیرش متون در محیطهای عملیاتی.
اما این رویکرد در مواجهه با دادههای غیرساختاریافته چه چالشی دارد؟ تحلیل ما از محدودیتهای لایههای قطعی را در گزارش بعدی بخوانید.
گفتگو