آیا میتوانید به مدلی که ادعای دقت ۹۹٪ دارد اعتماد کنید؟ در دنیای هوش مصنوعی (AI) پزشکی، این عدد ممکن است یک توهم مرگبار باشد.
در ۳۰ آوریل ۲۰۲۶، لارا گودر (Lara Gauder) ابزار تشخیصی جدیدی را در arxiv.org منتشر کرد تا پرده از سوگیریهای پنهان در مدلهای صوتی بردارد. به نقل از مستندات این پژوهش، بسیاری از مدلها به جای پردازش واقعی گفتار، صرفاً ویژگیهای ضبط صدا مانند نویز پسزمینه یا امضای سختافزاری را شناسایی میکنند تا پاسخ را حدس بزنند.
طبق اعلام گودر، این ابزار از یک سازوکار دقیق برای شناسایی همبستگیهای کاذب (Spurious Correlations) استفاده میکند:
- سیستم تلاش میکند تنها با استفاده از بخشهای «غیرگفتاری» (سکوت یا نویز) صدا، کلاس هدف را پیشبینی کند.
- اگر مدل بتواند با تکیه بر نویز، دقتی بالاتر از حد تصادفی به دست آورد، یک همبستگی کاذب شناسایی شده است.
- این پدیده بهویژه در دادههای پزشکی شایع است، جایی که شرایط ضبط صدا اغلب با گروههای خاصی از بیماران همپوشانی دارد.
همانطور که در تحلیلهای پیشین ما دربارهی توهمات مدلهای زبانی اشاره کردیم، مشکل اصلی زمانی رخ میدهد که این الگوهای غلط در هر دو مجموعهی آموزش و تست وجود داشته باشند. این اتفاق منجر به ایجاد یک «سراب عملکرد» میشود؛ وضعیتی که در آن توسعهدهنده تصور میکند مدل بینقص است، اما مدل در محیط واقعی بالینی با شکست فاجعهبار روبرو میشود.
این ابزار اکنون برای استفاده پژوهشی در دسترس است تا مهندسان بتوانند مجموعهدادههای خود را پیش از استقرار واقعی اعتبارسنجی کنند. با ورود عمیقتر AI به تشخیصهای پزشکی، این پرسش مطرح شده که آیا چنین بازرسیهایی باید برای دریافت تأییدیههای قانونی اجباری شوند یا خیر.
اما این مشکل تنها بخشی از بحران دادههای پزشکی است؛ در گزارش بعدی، تأثیر سوگیریهای جمعیتی بر تشخیصهای AI را بررسی خواهیم کرد.
گام بعدی شما
- اگر روی مدلهای صوتی کار میکنید، مجموعهدادههای خود را با ابزار گودر برای شناسایی نویزهای سیستماتیک بررسی کنید.
- در تحلیل دادهها، به جای تکیه بر دقت کلی (Accuracy)، از معیارهای تفکیکی برای بخشهای سکوت استفاده کنید.
- شرایط محیطی ضبط صدا را به عنوان یک متغیر کنترلشده در پیشپردازش دادهها لحاظ کنید.




گفتگو