چگونه تزریق خاطرات جعلی از شکست، ریسک‌پذیری عامل‌های هوش مصنوعی را کاهش می‌دهد؟

منبع خبر

۲۱ خرداد ۱۴۰۵·۲۱ خرداد ۱۴۰۵۱۰ دقیقه مطالعه

آیا حافظه ضعیف هوش مصنوعی را محتاط‌تر می‌کند؟ ما آزمایش کردیم

اشتراک‌گذاری

واقعاً چه چیز جدید است؟

کشف مکانیسم «مسمومیت فاکتی» که برخلاف دستورات مستقیم، سیستم‌های ایمنی مدل را دور می‌زند و باعث تغییر دائمی در شخصیت ریسک‌پذیری مدل می‌شود بدون آنکه دقت منطقی آن کاهش یابد.

اگر برای تصمیم‌گیری‌های حیاتی به عامل‌های هوش مصنوعی تکیه می‌کنید، باید بدانید که اعتماد شما بر روی یک توهم شکننده‌ استوار است. تصور کنید تنها چند سطر گزارش دروغین از شکست‌های گذشته، بتواند یک مدل جسور را به ماشینی بزدل و محتاط تبدیل کند؛ آن هم بدون اینکه هیچ هشدار امنیتی فعال شود.

این آسیب‌پذیری دقیقاً در جایی رخ می‌دهد که ما از عامل (Agent) — شبیه به کارمندی دیجیتالی که می‌تواند به‌جای شما اقدام کند — یا سیستم‌های تولید بازیابی‌افزا (RAG) — مثل دانش‌آموزی که قبل از جواب دادن، اول کتاب درسی را باز می‌کند تا نقل‌قول بیاورد — استفاده می‌کنیم. همان‌طور که در تحلیل قبلی ما درباره‌ی امنیت حافظه‌های بلندمدت مدل‌ها اشاره کردیم، هر داده‌ای که وارد زمینه‌ی متنی مدل شود، به عنوان «حقیقت» پذیرفته می‌شود.

آیا حافظه ضعیف هوش مصنوعی را محتاط‌تر می‌کند؟ ما آزمایش کردیم

طبق گزارش A2H Labs که در ۱۰ ژوئن ۲۰۲۶ منتشر شد، پژوهشگران با تزریق لیست‌هایی از معاملات شکست‌خورده‌ی جعلی در حافظه‌ی مدل‌ها، واکنش آن‌ها را بررسی کردند. نتایج این آزمایش روی مدل‌های Claude و GPT-5.5 تکان‌دهنده بود:

کوبیدن ریسک‌پذیری: در گروه کنترل، مدل‌ها ۵۵٪ سرمایه را به سهام تهاجمی اختصاص دادند. اما با تزریق ۲۵ رکورد جعلی از ضرر، این عدد به ۱۰٪ سقوط کرد.
آستانه‌ی تعمیم: وقتی تعداد شکست‌های جعلی به ۲۵ مورد رسید، مدل‌ها دچار «تعمیم شکست» شدند و حتی در حوزه‌های بی‌ربط مثل املاک هم ریسک‌پذیری‌شان کاهش یافت.
مصونیت منطق: بر اساس مستندات این پژوهش، منطق مدل‌ها اصلاً آسیب ندید. آن‌ها در تست‌های ریاضی و منطق (مثل مسئله‌ی توپ و چوب‌دستی) همچنان دقت ۱۰۰ درصدی داشتند.
شکاف دفاعی: در حالی که مدل‌ها جملات دستوری مثل «قضاوت من ضعیف است» را به عنوان تلاش برای سوگیری شناسایی و رد کردند، اما لیست‌های خامِ فاکت‌های شکست را به عنوان «زندگینامه» خود پذیرفتند.

این موضوع یک شکاف امنیتی بحرانی است. مسمومیت داده‌ایِ واقع‌گرایانه بسیار خطرناک‌تر از دستورات مستقیم است، چون سیستم‌های دفاعی مدل را دور می‌زند. مدل دچار توهم (Hallucination) — وقتی با اطمینان چیزی می‌گوید که وجود ندارد، شبیه دوستی که خاطره‌ای را اشتباه تعریف می‌کند — نمی‌شود؛ بلکه استدلالی کاملاً درست را روی مجموعه‌ای از پیش‌فرض‌های مسموم اجرا می‌کند.

گام بعدی شما

تمام داده‌های «خودزندگی‌نامه‌ای» که به حافظه‌ی بلندمدت عامل‌هایتان تزریق می‌کنید را بازبینی کنید.
سیستمی برای تأیید صحت (Verification) داده‌های ورودی در لایه‌ی RAG پیاده‌سازی کنید تا از مسمومیت فاکت‌ها جلوگیری شود.
رفتار عامل‌های خود را در مواجهه با داده‌های متناقض در حافظه پایش کنید.

اما این آسیب‌پذیری تنها بخشی از ماجراست؛ چالش تأمین «حاکمیت حافظه» برای جلوگیری از این چرخش‌های رفتنی پنهان، موضوع گزارش بعدی ما خواهد بود.

چرا این موضوع مهم است؟

این یافته بر اعتبار تمام ابزارهای تحلیل مالی و استراتژیکِ مبتنی بر عامل اثر می‌گذارد. با تکیه بر اعتبار A2H Labs، مشخص شد که امنیت مدل‌ها دیگر فقط به بستنِ پرامپت‌ها نیست، بلکه به پاک‌سازی تاریخچه‌ی داده‌ها بازمی‌گردد.

تأثیر برای ایران

برای توسعه‌دهندگان ایرانی که در حال ساخت عامل‌های تخصصی برای بازار بورس یا املاک هستند، این یک هشدار جدی است؛ نبودِ لایه‌ی تأیید صحت داده‌ها در حافظه‌ی RAG می‌تواند منجر به تصمیمات بیش از حد محتاطانه و خطا در استراتژی‌های مالی شود.

·نگاه ما

تحریریه دات‌هوش

تحلیل ما این است که صنعت هوش مصنوعی بیش از حد روی «فیلترهای خروجی» تمرکز کرده و از «سلامت ورودی‌های حافظه» غافل شده است. آنچه از این خبر می‌توان آموخت این است که مدل‌های استدلالی هرچه پیشرفته‌تر شوند، در برابر «درست استدلال کردن روی داده‌های غلط» آسیب‌پذیرتر می‌شوند؛ چرا که منطق قوی، دروغ‌های ساختاریافته را سریع‌تر به عنوان حقیقت می‌پذیرد.

منابع

dev.toDev.to AI

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

موضوع‌ها

عامل‌محور همراستاسازی استدلال بازیابی‌افزا

گفتگو

بسته‌ی هفتگی دات‌هوش

۵ خبر، ۲ ابزار، ۱ پرامپت در هر شماره. به‌زودی راه‌اندازی می‌شود — هر پنج‌شنبه صبح.

خبر کلیدی

ابزار کاربردی

پرامپت حرفه‌ای

تحلیل پژوهش

به‌زودی

زاویه‌ی ایرانی

به‌زودی

تمرین این هفته

به‌زودی

یاتلگرام RSS

راهنماهای دات‌هوش

راهنماهای کاربردیِ دات‌هوش برای کار با هوش مصنوعی — از همین‌جا شروع کنید:

دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

آیا حافظه ضعیف هوش مصنوعی را محتاط‌تر می‌کند؟ ما آزمایش کردیم

کوبیدن ریسک‌پذیری: در گروه کنترل، مدل‌ها ۵۵٪ سرمایه را به سهام تهاجمی اختصاص دادند. اما با تزریق ۲۵ رکورد جعلی از ضرر، این عدد به ۱۰٪ سقوط کرد.
آستانه‌ی تعمیم: وقتی تعداد شکست‌های جعلی به ۲۵ مورد رسید، مدل‌ها دچار «تعمیم شکست» شدند و حتی در حوزه‌های بی‌ربط مثل املاک هم ریسک‌پذیری‌شان کاهش یافت.
مصونیت منطق: بر اساس مستندات این پژوهش، منطق مدل‌ها اصلاً آسیب ندید. آن‌ها در تست‌های ریاضی و منطق (مثل مسئله‌ی توپ و چوب‌دستی) همچنان دقت ۱۰۰ درصدی داشتند.
شکاف دفاعی: در حالی که مدل‌ها جملات دستوری مثل «قضاوت من ضعیف است» را به عنوان تلاش برای سوگیری شناسایی و رد کردند، اما لیست‌های خامِ فاکت‌های شکست را به عنوان «زندگینامه» خود پذیرفتند.

گام بعدی شما

تمام داده‌های «خودزندگی‌نامه‌ای» که به حافظه‌ی بلندمدت عامل‌هایتان تزریق می‌کنید را بازبینی کنید.
سیستمی برای تأیید صحت (Verification) داده‌های ورودی در لایه‌ی RAG پیاده‌سازی کنید تا از مسمومیت فاکت‌ها جلوگیری شود.
رفتار عامل‌های خود را در مواجهه با داده‌های متناقض در حافظه پایش کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه تزریق خاطرات جعلی از شکست، ریسک‌پذیری عامل‌های هوش مصنوعی را کاهش می‌دهد؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه تزریق خاطرات جعلی از شکست، ریسک‌پذیری عامل‌های هوش مصنوعی را کاهش می‌دهد؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران