چرا میانگین دقت در مدل‌های پزشکی، حقیقتِ شکست‌های پنهان را می‌پوشاند؟

اگر به میانگین دقت یک مدل هوش مصنوعی در تشخیص‌های پزشکی اعتماد می‌کنید، احتمالاً بیمارانی را که مدل به‌طور کامل نادیده می‌گیرد، فراموش کرده‌اید. باید بدانید که در سیستم‌های فعلی، عملکرد عالی در سطح گروه می‌تواند شکست‌های فاجعه‌بار برای افراد خاصی از همان گروه را پنهان کند.

در دنیای پردازش تصاویر پزشکی، عدالت معمولاً با مقایسه میانگین‌های گروه‌های مختلف (مانند نژاد یا سن) سنجیده می‌شود. اما این تمرکز بر «بین‌گروهی»، ناهمگونی‌های داخلی هر گروه را نادیده می‌گیرد و باعث می‌شود موارد دشوار فردی شناسایی نشوند. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی سوگیری‌های الگوریتمیک اشاره کردیم، این شکاف در استواری (robustness) می‌تواند منجر به نابرابری‌های خطرناک در تشخیص‌های بالینی شود.

به نقل از مقاله‌ای که در ۱۲ می ۲۰۲۶ در arxiv.org منتشر شد، سازوکار DuetFair با ترکیب انطباق بین‌گروهی و استواری درون‌گروهی، این مشکل را حل می‌کند. پیاده‌سازی عملی این متد با نام FairDRO، از دو مؤلفه کلیدی بهره می‌برد:

ترکیب خبرگان آگاه از توزیع (Distribution-aware mixture-of-experts یا dMoE) برای انطباق‌پذیری.
بهینه‌سازی استوار توزیعی شرطی‌شده بر زیرگروه (Subgroup-conditioned distributionally robust optimization یا DRO) برای تجمیع خطاها.

بر اساس مستندات این پژوهش، این مدل روی بنچمارک‌های معتبری از جمله Harvard-FairSeg و HAM10000 آزمایش شده است. نتایج در یک کوهورت هدف رادیوتراپی سه‌بعدی نشان داد که FairDRO توانسته است امتیاز دایس (Dice score) را در بدترین گروه، برای دسته‌بندی‌های سازمانی ۴.۱ واحد (۷.۴٪) و برای مراحل تومور ۳.۵ واحد (۶.۰٪) نسبت به قوی‌ترین مدل‌های پایه بهبود بخشد.

این تحول، معیار موفقیت در هوش مصنوعی پزشکی را از «عدالت گروهی» به «استواری فردی در گروه‌ها» تغییر می‌دهد. با هدف قرار دادن نمونه‌های بدترین حالت به‌جای میانگین، FairDRO هشدار می‌دهد که مدل‌های به‌اصطلاح «عادلانه» فعلی، همچنان در مواجهه با بیمارانی که با میانگین زیرگروه همخوانی ندارند، شکست می‌خورند.

گام بعدی شما

پژوهشگران باید بررسی کنند که آیا رویکرد مبتنی بر DRO در سیستم‌های رباتیک جراحی در لحظه (real-time) قابل مقیاس‌پذیری است یا خیر.
بررسی اثر این متد بر مجموعه‌های تشخیصی چندوجهی (multimodal) برای کاهش خطای تشخیص در اقلیت‌های پزشکی.
تحلیل مجدد داده‌های آموزشی برای شناسایی «نمونه‌های پرت» (outliers) که توسط میانگین‌های فعلی پوشانده شده‌اند.

اما تأثیر این رویکرد بر کاهش هزینه‌های استنتاج در مدل‌های سنگین پزشکی هنوز ناشناخته است؛ در گزارش بعدی به بررسی بهینه‌سازی‌های سخت‌افزاری در پردازش تصاویر پزشکی خواهیم پرداخت.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

ترکیب خبرگان آگاه از توزیع (Distribution-aware mixture-of-experts یا dMoE) برای انطباق‌پذیری.
بهینه‌سازی استوار توزیعی شرطی‌شده بر زیرگروه (Subgroup-conditioned distributionally robust optimization یا DRO) برای تجمیع خطاها.

گام بعدی شما

پژوهشگران باید بررسی کنند که آیا رویکرد مبتنی بر DRO در سیستم‌های رباتیک جراحی در لحظه (real-time) قابل مقیاس‌پذیری است یا خیر.
بررسی اثر این متد بر مجموعه‌های تشخیصی چندوجهی (multimodal) برای کاهش خطای تشخیص در اقلیت‌های پزشکی.
تحلیل مجدد داده‌های آموزشی برای شناسایی «نمونه‌های پرت» (outliers) که توسط میانگین‌های فعلی پوشانده شده‌اند.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا میانگین دقت در مدل‌های پزشکی، حقیقتِ شکست‌های پنهان را می‌پوشاند؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا میانگین دقت در مدل‌های پزشکی، حقیقتِ شکست‌های پنهان را می‌پوشاند؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا میانگین دقت در مدل‌های پزشکی، حقیقتِ شکست‌های پنهان را می‌پوشاند؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا میانگین دقت در مدل‌های پزشکی، حقیقتِ شکست‌های پنهان را می‌پوشاند؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران