اگر پژوهشگر یا پزشک هستید و به نتایج مقالات جدید هوش مصنوعی اعتماد میکنید، باید بدانید زیربنای ۱۲۴ مقاله معتبر، دادههای کاملاً جعلی است. تصور کنید ابزاری که قرار است مرگ و زندگی یک بیمار را تشخیص دهد، با عکسهای بازیگران هالیوودی آموزش دیده باشد.
این بحران از Kaggle شروع شد؛ مخزنی متعلق به گوگل که پژوهشگران برای یافتن سریع مجموعه دادههای آموزشی (Training Set) — شبیه به کتاب درسی که دانشآموز برای یادگیری قبل از امتحان میخواند — به آن مراجعه میکنند. طبق گزارش آدرین بارنت (Adrian Barnett) و الکساندر گیبسون (Alexander Gibson)، فشار برای انتشار سریع مقالات باعث شده تا دقت علمی جای خود را به سرعت داده شود.
همانطور که در تحلیلهای قبلی ما دربارهی امنیت دادههای بازمتن اشاره کردیم، تکیه بر منابع تأییدنشده ریسکهای سیستمی ایجاد میکند. در این مورد خاص، جزئیات تکاندهنده است:
- در یک مجموعه داده برای تشخیص سکته مغزی، تصاویری از جورج کلونی، آنجلینا جولی و سیلوستر استالون (در نقش رامبو) قرار داشت.
- در دادههای مربوط به دیابت، هزاران رکورد تکراری با مقادیر کامل دیده شد؛ اتفاقی که در دنیای واقعی پزشکی تقریباً غیرممکن است.
به نقل از مستندات منتشرشده، این خطاها منجر به ابطال چندین مقاله در نشریه Scientific Reports تا تاریخ ۱۹ مه ۲۰۲۶ شد. بدتر از آن، برخی از این مدلهای معیوب حتی وارد دنیای واقعی شدند و در یک پتنت دستگاه پزشکی و یک کلینیک در اندونزی به کار گرفته شدند.
تحلیل ما نشان میدهد که این وضعیت یک «اثر پولشویی» ایجاد میکند. وقتی یک مقاله غلط در یک متاآنالیز (Meta-analysis) — شبیه به گزارش نهایی که نتایج ده مطالعه مختلف را با هم ترکیب میکند تا یک حقیقت کلی پیدا کند — مورد استناد قرار میگیرد، نقصهای اولیه دادهها ناپدید میشوند و نتایج جعلی به «حقیقت پذیرفتهشده» تبدیل میشوند.
گام بعدی شما
- اگر از دادههای Kaggle برای پروژههای حساس استفاده میکنید، حتماً نمونههای تصادفی دادهها را بهصورت دستی بازبینی کنید.
- در هنگام مطالعه مقالات پزشکی، به منبع دقیق دادهها و نحوه جمعآوری آنها (Data Provenance) دقت کنید.
- از ابزارهای شناسایی دادههای تکراری برای پاکسازی مجموعههای آموزشی خود استفاده کنید.
اما این بحران تنها نوک کوه یخ است؛ در گزارش بعدی بررسی میکنیم که چگونه مدلهای بازمتن دیگر در حال پاکسازی خودکار دادههای جعلی هستند.
گفتگو