اگر شما مدیر یک مرکز درمانی هستید و ابزارهای هوش مصنوعی را ارزیابی میکنید، یک معیار جدید نشان میدهد که یک عامل خودکار میتواند در محیطهای اورژانس، تشخیصهای دقیقتری نسبت به متخصصان باتجربه ارائه دهد. طبق گزارشهای منتشر شده در ۱۸ ژوئن ۲۰۲۶، عامل MIRA (Medical Intelligence for Reasoning and Action) در تشخیص ۳۱۱ مورد اورژانسی به صحت ۸۷.۸ درصدی رسید، در حالی که تیم متخصصان تنها ۷۸.۱ درصد موفق بودند. این دستاورد در ادامه روند رشد ابزارهای تشخیص تخصصی است، مشابه آنچه در گزارش arXiv پیرامون بازدهی مدل LiteOdyssey در تشخیص بیماریهای فوقکمیاب مشاهده شد.
این تحول در حالی رخ میدهد که صنعت از چتباتهای ساده به سمت عامل (Agent) — شبیه به کارمندی دیجیتال که نه تنها حرف میزند، بلکه میتواند ابزارها را مدیریت کند و تصمیم بگیرد — حرکت میکند. همانطور که در تحلیل قبلی ما دربارهی امنیت مدلهای بازمتن اشاره کردیم، اتوماسیون در حوزههای حساس نیازمند لایههای نظارتی است. این سامانهها مثل یک «خلبان خودکار» برای پزشکی عمل میکنند؛ دادههای تکراری را پردازش کرده و دستورالعملها را تطبیق میدهند تا پزشک روی نظارت سطح بالا تمرکز کند. به گزارش وبسایت the-decoder.com، این ابزارها پیش از هرگونه تماس با بیمار واقعی، در محیطهای شبیهسازیشده آزمایش میشوند تا ایمنی آنها تضمین شود.
MIRA که توسط دانشگاههای درزدن و هایدلبرگ توسعه یافته است، بیش از ۸۵ هزار گزینه را در ۱۱ ابزار مختلف برای درخواست آزمایش و نوشتن طرحهای درمانی مدیریت میکند. همزمان، مدل AMIE گوگل از یک معماری دو-عاملی استفاده میکند تا یک همصحبت مهربان را با یک مدل استدلالی (Reasoning Model) — شبیه به شطرنجبازی که قبل از هر حرکت، چند گام جلوتر را میبیند — ترکیب کند. یافتههای کلیدی این مطالعات عبارتند از:
- MIRA در تشخیص آپاندیس (۹۸.۶٪) و پانکراتیت (۹۲.۳٪) به نمرات تقریباً کامل رسید.
- طرحهای درمانی AMIE در ۹۵٪ موارد مناسب تشخیص داده شدند، در حالی که این رقم برای پزشکان ۷۲٪ بود.
- هر دو سیستم در تشخیص پنومونی (سینه پهلو) ضعیفتر عمل کردند و صحت آنها به ۷۲.۴٪ کاهش یافت.
از نظر اقتصادی، حیاتیترین نکته «پارادوکس داربست» است. محققان گوگل دریافتند که اگرچه ساختار پیچیده دو-عاملی باعث بهبود عملکرد مدل Gemini 1.5 Flash میشد، اما این مزیت در مدل جدیدتر Gemini 2.5 Flash ناپدید شد. این یعنی لایههای نرمافزاری تخصصی که برای جلوگیری از توهم (Hallucination) — وقتی مدل با اطمینان چیزی میگوید که اصلاً وجود ندارد — طراحی شده بودند، اکنون توسط هوش ذاتی نسل جدید مدلهایی مثل GPT-5 یا Gemini 2.5 Pro جایگزین میشوند.
با وجود این نتایج، پروفسور کاترین پوپ از دانشگاه آکسفورد هشدار میدهد که شبیهسازیها نمیتوانند واقعیت «پیچیده و آشفته» یک درمانگاه فیزیکی را بازنمایی کنند. باید منتظر ماند و دید آیا این عاملها میتوانند دقت خود را هنگام انتقال از مجموعهدادههای ساختاریافته مثل MIMIC-IV به تعاملات غیرقابلپیشبینی با بیماران واقعی حفظ کنند یا خیر.
گام بعدی شما
- اگر توسعهدهنده ابزارهای سلامت هستید، روی کاهش لایههای Scaffolding و تکیه بر مدلهای استدلالی جدید تمرکز کنید.
- گزارشهای Nature درباره AMIE را برای درک معماری چندعاملی مطالعه کنید.
- بررسی کنید که آیا دادههای مرکز درمانی شما برای آموزش مدلهای بازمتنی بهینه شده است یا خیر.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو