چرا مکانیسم‌های خوداصلاحی مدل‌های زبانی در برابر حملات M³Att شکست می‌خورند؟

اگر به تشخیص‌های یک هوش مصنوعی پزشکی اعتماد می‌کنید، ممکن است در واقع در حال مشاهده‌ی یک دروغ مهندسی‌شده باشید. باید بدانید که لایه‌های استدلالی مدل‌های زبانی لزوماً به معنای ایمنی در برابر داده‌های مسموم نیستند.

در حال حاضر، تولید بازیابی‌افزا (RAG) روش استاندارد برای زمینه‌سازی مدل‌های زبانی بزرگ (LLM) در دانش تخصصی است تا نرخ توهم (Hallucination) کاهش یابد. همان‌طور که در پوشش پیشین ما از امنیت مدل‌های بازمتن دیدیم، اعتماد مطلق به داده‌های بازیابی‌شده می‌تواند مخاطره‌آمیز باشد.

به نقل از مستندات منتشرشده در ۱۲ ماه مه ۲۰۲۶، چارچوب M³Att یک حمله دو مرحله‌ای را اجرا می‌کند. نخست، تغییرات نامحسوسی در داده‌های بصری ایجاد می‌کند تا به عنوان محرک‌های مستقل از پرس‌وجو عمل کنند؛ این یعنی محتوای مسموم بدون توجه به سؤال کاربر، بازیابی می‌شود. دوم، «اطلاعات گمراه‌کننده پنهان» را تزریق می‌کند؛ خطاهای متنی که از ابهام ذاتی تشخیص‌های پزشکی بهره می‌برند. طبق گزارش پژوهشگران، این روش باعث می‌شود مدل نتواند داده را به عنوان «غلط» شناسایی کند و در نتیجه مکانیسم خوداصلاحی آن خنثی شود. این رویکرد روی ۵ مدل زبانی مختلف و مجموعه‌داده‌های پزشکی آزمایش شده است.

این یافته، مفروضات امنیتی در هوش مصنوعی پزشکی را تغییر می‌دهد. ثابت شد که توانایی‌های استدلالی مدل‌های پیشرو، در برابر مسموم‌سازی داده‌هایی که از نظر بالینی منطقی به نظر می‌رسند، دفاعی کافی نیستند. برای متخصصان، این بدان معناست که تأیید سلامت پایگاه داده‌های بازیابی، اکنون به اندازه لایه‌ی فیلترینگ پرامپت‌ها حیاتی است.

گام بعدی شما

انتشار رسمی کد M³Att را دنبال کنید تا خط لوله‌های RAG خود را در برابر محرک‌های چندوجهی آزمایش کنید.
استحکام پایگاه‌های دانش پزشکی خود را با استفاده از داده‌های مبهم ارزیابی کنید.
لایه‌های اعتبارسنجی خارجی را به جای اتکا به خوداصلاحی مدل اضافه کنید.

اما تأثیر این آسیب‌پذیری‌ها بر سخت‌افزارهای استنتاج حتی پیچیده‌تر است؛ به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

گام بعدی شما

انتشار رسمی کد M³Att را دنبال کنید تا خط لوله‌های RAG خود را در برابر محرک‌های چندوجهی آزمایش کنید.
استحکام پایگاه‌های دانش پزشکی خود را با استفاده از داده‌های مبهم ارزیابی کنید.
لایه‌های اعتبارسنجی خارجی را به جای اتکا به خوداصلاحی مدل اضافه کنید.

چرا مکانیسم‌های خوداصلاحی مدل‌های زبانی در برابر حملات M³Att شکست می‌خورند؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا مکانیسم‌های خوداصلاحی مدل‌های زبانی در برابر حملات M³Att شکست می‌خورند؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا مکانیسم‌های خوداصلاحی مدل‌های زبانی در برابر حملات M³Att شکست می‌خورند؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا مکانیسم‌های خوداصلاحی مدل‌های زبانی در برابر حملات M³Att شکست می‌خورند؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران