اگر به تشخیصهای یک هوش مصنوعی پزشکی اعتماد میکنید، ممکن است در واقع در حال مشاهدهی یک دروغ مهندسیشده باشید. باید بدانید که لایههای استدلالی مدلهای زبانی لزوماً به معنای ایمنی در برابر دادههای مسموم نیستند.
در حال حاضر، تولید بازیابیافزا (RAG) روش استاندارد برای زمینهسازی مدلهای زبانی بزرگ (LLM) در دانش تخصصی است تا نرخ توهم (Hallucination) کاهش یابد. همانطور که در پوشش پیشین ما از امنیت مدلهای بازمتن دیدیم، اعتماد مطلق به دادههای بازیابیشده میتواند مخاطرهآمیز باشد.
به نقل از مستندات منتشرشده در ۱۲ ماه مه ۲۰۲۶، چارچوب M³Att یک حمله دو مرحلهای را اجرا میکند. نخست، تغییرات نامحسوسی در دادههای بصری ایجاد میکند تا به عنوان محرکهای مستقل از پرسوجو عمل کنند؛ این یعنی محتوای مسموم بدون توجه به سؤال کاربر، بازیابی میشود. دوم، «اطلاعات گمراهکننده پنهان» را تزریق میکند؛ خطاهای متنی که از ابهام ذاتی تشخیصهای پزشکی بهره میبرند. طبق گزارش پژوهشگران، این روش باعث میشود مدل نتواند داده را به عنوان «غلط» شناسایی کند و در نتیجه مکانیسم خوداصلاحی آن خنثی شود. این رویکرد روی ۵ مدل زبانی مختلف و مجموعهدادههای پزشکی آزمایش شده است.
این یافته، مفروضات امنیتی در هوش مصنوعی پزشکی را تغییر میدهد. ثابت شد که تواناییهای استدلالی مدلهای پیشرو، در برابر مسمومسازی دادههایی که از نظر بالینی منطقی به نظر میرسند، دفاعی کافی نیستند. برای متخصصان، این بدان معناست که تأیید سلامت پایگاه دادههای بازیابی، اکنون به اندازه لایهی فیلترینگ پرامپتها حیاتی است.
گام بعدی شما
- انتشار رسمی کد M³Att را دنبال کنید تا خط لولههای RAG خود را در برابر محرکهای چندوجهی آزمایش کنید.
- استحکام پایگاههای دانش پزشکی خود را با استفاده از دادههای مبهم ارزیابی کنید.
- لایههای اعتبارسنجی خارجی را به جای اتکا به خوداصلاحی مدل اضافه کنید.
اما تأثیر این آسیبپذیریها بر سختافزارهای استنتاج حتی پیچیدهتر است؛ به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو