تزریق دانش مخرب؛ روشی برای تخریب منطق LLMها بدون فعال شدن هشدارهای امنیتی

تصور کنید مدل زبانی شما در تمام بنچمارک‌ها نمره کامل می‌گیرد، اما در پس‌زمینه، منطقش برای اتخاذ تصمیمات خطرناک مسموم شده است. باید بدانید که این «تخریب خاموش» می‌تواند بدون فعال شدن هیچ هشدار امنیتی در سیستم‌های نظارتی رخ دهد.

ویرایش دانش (Knowledge Editing) برای به‌روزرسانی مدل زبانی بزرگ (LLM) بدون نیاز به بازآموزی (Retraining) پرهزینه طراحی شده است. همان‌طور که در پوشش پیشین ما از امنیت مدل‌های بازمتن دیدیم، هرگونه انعطاف در دسترسی به لایه‌های مدل، ریسک‌های جدیدی ایجاد می‌کند. در حال حاضر، ریسک از خطاهای ساده‌ی واقع‌گرایانه به شکست‌های سیستماتیک در استدلال تغییر یافته است.

به نقل از مطالعه‌ای که در ۱۲ مه ۲۰۲۶ در arxiv.org منتشر شد، این آسیب‌پذیری اجازه می‌دهد مهاجمان نتایج مضر را القا کنند در حالی که مدل در ظاهر به‌طور عادی عمل می‌کند. برای سنجش این خطر، پژوهشگران چارچوب EditRisk-Bench را توسعه دادند تا فراتر از معیارهای ساده‌ی «موفقیت در ویرایش»، موارد زیر را بررسی کنند:

ارزیابی اثربخشی حمله و صحت زنجیره تفکر (Chain-of-Thought).
سنجش اثرات جانبی بر قابلیت‌های عمومی مدل.
تست در سناریوهای متنوع شامل سوگیری، اطلاعات نادرست و نقض پروتکل‌های ایمنی.

بر اساس مستندات این پژوهش، مقیاس ویرایش، ویژگی‌های دانش تزریق‌شده و پیچیدگی استدلال، عوامل اصلی اثرگذار بر این ریسک‌ها هستند. این یافته‌ها نشان می‌دهد که گاردریل‌های (Guardrails) فعلی در برابر ویرایش‌های «پنهانی» که روان بودن متن را حفظ می‌کنند اما مسیرهای استدلالی را مسموم می‌کنند، کاملاً کور هستند.

این موضوع برای جامعه فنی به این معناست که هدف ارزیابی باید از «کارایی» (Efficacy) — یعنی اینکه آیا مدل واقعیت جدید را یاد گرفته یا خیر — به «قابلیت اطمینان» (Reliability) — یعنی اینکه آیا آن واقعیت منطق مدل را شکسته است یا خیر — تغییر کند.

گام بعدی شما

برای ارزیابی تاب‌آوری مدل‌های خود در برابر فساد هدفمند دانش، منتظر انتشار محیط تست (Testbed) مربوط به EditRisk-Bench باشید.
ارزیابی‌های ایمنی خود را از بررسی‌های ساده‌ی واقع‌سنجی به سمت ارزیابی‌های «آگاه به استدلال» (Reasoning-aware) ببرید.
در استقرار مدل‌های حساس، هرگونه ویرایش دانش را با تست‌های استرس منطقی بازبینی کنید.

اما این آسیب‌پذیری تنها بخشی از یک معمای بزرگتر است؛ برای درک نحوه مقابله با توهمات سیستماتیک، تحلیل ما درباره‌ی RAG پیشرفته را بخوانید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

ارزیابی اثربخشی حمله و صحت زنجیره تفکر (Chain-of-Thought).
سنجش اثرات جانبی بر قابلیت‌های عمومی مدل.
تست در سناریوهای متنوع شامل سوگیری، اطلاعات نادرست و نقض پروتکل‌های ایمنی.

گام بعدی شما

برای ارزیابی تاب‌آوری مدل‌های خود در برابر فساد هدفمند دانش، منتظر انتشار محیط تست (Testbed) مربوط به EditRisk-Bench باشید.
ارزیابی‌های ایمنی خود را از بررسی‌های ساده‌ی واقع‌سنجی به سمت ارزیابی‌های «آگاه به استدلال» (Reasoning-aware) ببرید.
در استقرار مدل‌های حساس، هرگونه ویرایش دانش را با تست‌های استرس منطقی بازبینی کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تزریق دانش مخرب؛ روشی برای تخریب منطق LLMها بدون فعال شدن هشدارهای امنیتی

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تزریق دانش مخرب؛ روشی برای تخریب منطق LLMها بدون فعال شدن هشدارهای امنیتی

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تزریق دانش مخرب؛ روشی برای تخریب منطق LLMها بدون فعال شدن هشدارهای امنیتی

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

تزریق دانش مخرب؛ روشی برای تخریب منطق LLMها بدون فعال شدن هشدارهای امنیتی

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران