شاید تصور کنید مدلی که قادر است یک تومور نادر را در اسلایدهای پاتولوژی شناسایی کند، میتواند بهراحتی یک پروتکل درمانی را مدیریت کند. اما واقعیت این است که پیشرفتهترین مدلها دقیقاً در نقطهای شکست میخورند که ادراک بصری به پایان میرسد و اجرای عملیاتی آغاز میشود.
صنعت هوش مصنوعی پزشکی در حال گذار از تشخیصهای ساده به گردشهای کاری عاملمحور (Agentic Workflows) است؛ جایی که مدل باید ابزارهای لازم را بازیابی کند، شواهد را جمعآوری نماید و دادهها را یکپارچه کند. همانطور که در تحلیلهای پیشین ما دربارهی استدلال در مدلهای زبانی اشاره کردیم، توانایی استنتاج در محیطهای بسته با اجرای عملیاتی در محیطهای باز تفاوت بنیادینی دارد.
بنچمارک MedCTA که در ۱۱ ژوئن ۲۰۲۶ منتشر شد، ثابت میکند که تشخیص دقیق تصاویر لزوماً به رفتار عاملمحورِ قابلاطمینان در محیطهای پزشکی منجر نمیشود. بر اساس مستندات این چارچوب، MedCTA شامل ۱۰۷ وظیفه است که توسط پزشکان تأیید شده و بر دادههای چندوجهی از جمله اسلایدهای پاتولوژی، تصاویر رادیولوژی و گزارشهای پزشکی استوار است. این سامانه، عاملها را در استفاده از ۵ ابزار مستقر ارزیابی میکند و نقاط شکست را در سه محور زیر رصد میکند:
- صحت انتخاب ابزار و آرگومانهای ورودی
- پایداری اجرا و وفاداری به مسیر (Trajectory Fidelity)
- کیفیت خروجی نهایی
به نقل از مقاله منتشر شده در arxiv.org، بررسی ۱۸ مدل بازمتن و بسته-منبع نشاندهندهی عملکردی «شکننده» است. طبق این گزارش، اجراهای خودکار بهطور مکرر به دلیل شکست در پروتکلها، توقفهای زودهنگام و فراخوانی نادرست ابزارها با اختلال مواجه شدند.
این نتایج، کانون توجه صنعت را از مقیاسپذیری صرفِ ادراک (Perception) به اولویتدهی به لایهی عاملمحور در هوش مصنوعی بالینی تغییر میدهد. تحلیل ما نشان میدهد که گلوگاه رسیدن به خودمختاری پزشکی، نه کمبود دانش یا دقت بصری، بلکه فقدان پایداری در منطق برنامهریزی برای مراحل چندگانه است. برای توسعهدهندگان، این بدان معناست که حتی «مسیریابی استاندارد ابزارها» نمیتواند ناپایداری ذاتی در منطق برنامهریزی مدل را کاملاً جبران کند.
گام بعدی شما
- توسعهدهندگان مدلهای پزشکی باید از مجموعهداده و ابزار ارزیابی MedCTA برای ممیزی عاملهای خود استفاده کنند.
- بررسی اثر تنظیم دقیق (Fine-tuning) بر روی مسیرهای اجرایی (Executable Trajectories) برای رفع مشکل توقف زودهنگام.
- پیادهسازی رمزگشایی محدودشده (Constrained Decoding) برای افزایش پایداری ابزارها.
اما این تنها بخشی از چالش است؛ اثر این ناپایداری بر امنیت بیمار در استقرارهای واقعی را در گزارش بعدی بررسی خواهیم کرد.



گفتگو