اگر برای تصمیمگیریهای حیاتی به عاملهای هوش مصنوعی تکیه میکنید، باید بدانید که اعتماد شما بر روی یک توهم شکننده استوار است. تصور کنید تنها چند سطر گزارش دروغین از شکستهای گذشته، بتواند یک مدل جسور را به ماشینی بزدل و محتاط تبدیل کند؛ آن هم بدون اینکه هیچ هشدار امنیتی فعال شود.
این آسیبپذیری دقیقاً در جایی رخ میدهد که ما از عامل (Agent) — شبیه به کارمندی دیجیتالی که میتواند بهجای شما اقدام کند — یا سیستمهای تولید بازیابیافزا (RAG) — مثل دانشآموزی که قبل از جواب دادن، اول کتاب درسی را باز میکند تا نقلقول بیاورد — استفاده میکنیم. همانطور که در تحلیل قبلی ما دربارهی امنیت حافظههای بلندمدت مدلها اشاره کردیم، هر دادهای که وارد زمینهی متنی مدل شود، به عنوان «حقیقت» پذیرفته میشود.

طبق گزارش A2H Labs که در ۱۰ ژوئن ۲۰۲۶ منتشر شد، پژوهشگران با تزریق لیستهایی از معاملات شکستخوردهی جعلی در حافظهی مدلها، واکنش آنها را بررسی کردند. نتایج این آزمایش روی مدلهای Claude و GPT-5.5 تکاندهنده بود:
- کوبیدن ریسکپذیری: در گروه کنترل، مدلها ۵۵٪ سرمایه را به سهام تهاجمی اختصاص دادند. اما با تزریق ۲۵ رکورد جعلی از ضرر، این عدد به ۱۰٪ سقوط کرد.
- آستانهی تعمیم: وقتی تعداد شکستهای جعلی به ۲۵ مورد رسید، مدلها دچار «تعمیم شکست» شدند و حتی در حوزههای بیربط مثل املاک هم ریسکپذیریشان کاهش یافت.
- مصونیت منطق: بر اساس مستندات این پژوهش، منطق مدلها اصلاً آسیب ندید. آنها در تستهای ریاضی و منطق (مثل مسئلهی توپ و چوبدستی) همچنان دقت ۱۰۰ درصدی داشتند.
- شکاف دفاعی: در حالی که مدلها جملات دستوری مثل «قضاوت من ضعیف است» را به عنوان تلاش برای سوگیری شناسایی و رد کردند، اما لیستهای خامِ فاکتهای شکست را به عنوان «زندگینامه» خود پذیرفتند.
این موضوع یک شکاف امنیتی بحرانی است. مسمومیت دادهایِ واقعگرایانه بسیار خطرناکتر از دستورات مستقیم است، چون سیستمهای دفاعی مدل را دور میزند. مدل دچار توهم (Hallucination) — وقتی با اطمینان چیزی میگوید که وجود ندارد، شبیه دوستی که خاطرهای را اشتباه تعریف میکند — نمیشود؛ بلکه استدلالی کاملاً درست را روی مجموعهای از پیشفرضهای مسموم اجرا میکند.
گام بعدی شما
- تمام دادههای «خودزندگینامهای» که به حافظهی بلندمدت عاملهایتان تزریق میکنید را بازبینی کنید.
- سیستمی برای تأیید صحت (Verification) دادههای ورودی در لایهی RAG پیادهسازی کنید تا از مسمومیت فاکتها جلوگیری شود.
- رفتار عاملهای خود را در مواجهه با دادههای متناقض در حافظه پایش کنید.
اما این آسیبپذیری تنها بخشی از ماجراست؛ چالش تأمین «حاکمیت حافظه» برای جلوگیری از این چرخشهای رفتنی پنهان، موضوع گزارش بعدی ما خواهد بود.




گفتگو