۱۲۴ مقاله پزشکی با داده‌های جعلی: از عکس سلبریتی‌ها تا تشخیص سکته

اگر پژوهشگر یا پزشک هستید و به نتایج مقالات جدید هوش مصنوعی اعتماد می‌کنید، باید بدانید زیربنای ۱۲۴ مقاله معتبر، داده‌های کاملاً جعلی است. تصور کنید ابزاری که قرار است مرگ و زندگی یک بیمار را تشخیص دهد، با عکس‌های بازیگران هالیوودی آموزش دیده باشد.

این بحران از Kaggle شروع شد؛ مخزنی متعلق به گوگل که پژوهشگران برای یافتن سریع مجموعه داده‌های آموزشی (Training Set) — شبیه به کتاب درسی که دانش‌آموز برای یادگیری قبل از امتحان می‌خواند — به آن مراجعه می‌کنند. طبق گزارش آدرین بارنت (Adrian Barnett) و الکساندر گیبسون (Alexander Gibson)، فشار برای انتشار سریع مقالات باعث شده تا دقت علمی جای خود را به سرعت داده شود.

همان‌طور که در تحلیل‌های قبلی ما درباره‌ی امنیت داده‌های بازمتن اشاره کردیم، تکیه بر منابع تأییدنشده ریسک‌های سیستمی ایجاد می‌کند. در این مورد خاص، جزئیات تکان‌دهنده است:

در یک مجموعه داده برای تشخیص سکته مغزی، تصاویری از جورج کلونی، آنجلینا جولی و سیلوستر استالون (در نقش رامبو) قرار داشت.
در داده‌های مربوط به دیابت، هزاران رکورد تکراری با مقادیر کامل دیده شد؛ اتفاقی که در دنیای واقعی پزشکی تقریباً غیرممکن است.

به نقل از مستندات منتشرشده، این خطاها منجر به ابطال چندین مقاله در نشریه Scientific Reports تا تاریخ ۱۹ مه ۲۰۲۶ شد. بدتر از آن، برخی از این مدل‌های معیوب حتی وارد دنیای واقعی شدند و در یک پتنت دستگاه پزشکی و یک کلینیک در اندونزی به کار گرفته شدند.

تحلیل ما نشان می‌دهد که این وضعیت یک «اثر پول‌شویی» ایجاد می‌کند. وقتی یک مقاله غلط در یک متاآنالیز (Meta-analysis) — شبیه به گزارش نهایی که نتایج ده مطالعه مختلف را با هم ترکیب می‌کند تا یک حقیقت کلی پیدا کند — مورد استناد قرار می‌گیرد، نقص‌های اولیه داده‌ها ناپدید می‌شوند و نتایج جعلی به «حقیقت پذیرفته‌شده» تبدیل می‌شوند.

گام بعدی شما

اگر از داده‌های Kaggle برای پروژه‌های حساس استفاده می‌کنید، حتماً نمونه‌های تصادفی داده‌ها را به‌صورت دستی بازبینی کنید.
در هنگام مطالعه مقالات پزشکی، به منبع دقیق داده‌ها و نحوه جمع‌آوری آن‌ها (Data Provenance) دقت کنید.
از ابزارهای شناسایی داده‌های تکراری برای پاکسازی مجموعه‌های آموزشی خود استفاده کنید.

اما این بحران تنها نوک کوه یخ است؛ در گزارش بعدی بررسی می‌کنیم که چگونه مدل‌های بازمتن دیگر در حال پاکسازی خودکار داده‌های جعلی هستند.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

در یک مجموعه داده برای تشخیص سکته مغزی، تصاویری از جورج کلونی، آنجلینا جولی و سیلوستر استالون (در نقش رامبو) قرار داشت.
در داده‌های مربوط به دیابت، هزاران رکورد تکراری با مقادیر کامل دیده شد؛ اتفاقی که در دنیای واقعی پزشکی تقریباً غیرممکن است.

گام بعدی شما

اگر از داده‌های Kaggle برای پروژه‌های حساس استفاده می‌کنید، حتماً نمونه‌های تصادفی داده‌ها را به‌صورت دستی بازبینی کنید.
در هنگام مطالعه مقالات پزشکی، به منبع دقیق داده‌ها و نحوه جمع‌آوری آن‌ها (Data Provenance) دقت کنید.
از ابزارهای شناسایی داده‌های تکراری برای پاکسازی مجموعه‌های آموزشی خود استفاده کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

۱۲۴ مقاله پزشکی با داده‌های جعلی: از عکس سلبریتی‌ها تا تشخیص سکته

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

۱۲۴ مقاله پزشکی با داده‌های جعلی: از عکس سلبریتی‌ها تا تشخیص سکته

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

۱۲۴ مقاله پزشکی با داده‌های جعلی: از عکس سلبریتی‌ها تا تشخیص سکته

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

۱۲۴ مقاله پزشکی با داده‌های جعلی: از عکس سلبریتی‌ها تا تشخیص سکته

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران