تصور کنید مدل زبانی شما در تمام بنچمارکها نمره کامل میگیرد، اما در پسزمینه، منطقش برای اتخاذ تصمیمات خطرناک مسموم شده است. باید بدانید که این «تخریب خاموش» میتواند بدون فعال شدن هیچ هشدار امنیتی در سیستمهای نظارتی رخ دهد.
ویرایش دانش (Knowledge Editing) برای بهروزرسانی مدل زبانی بزرگ (LLM) بدون نیاز به بازآموزی (Retraining) پرهزینه طراحی شده است. همانطور که در پوشش پیشین ما از امنیت مدلهای بازمتن دیدیم، هرگونه انعطاف در دسترسی به لایههای مدل، ریسکهای جدیدی ایجاد میکند. در حال حاضر، ریسک از خطاهای سادهی واقعگرایانه به شکستهای سیستماتیک در استدلال تغییر یافته است.
به نقل از مطالعهای که در ۱۲ مه ۲۰۲۶ در arxiv.org منتشر شد، این آسیبپذیری اجازه میدهد مهاجمان نتایج مضر را القا کنند در حالی که مدل در ظاهر بهطور عادی عمل میکند. برای سنجش این خطر، پژوهشگران چارچوب EditRisk-Bench را توسعه دادند تا فراتر از معیارهای سادهی «موفقیت در ویرایش»، موارد زیر را بررسی کنند:
- ارزیابی اثربخشی حمله و صحت زنجیره تفکر (Chain-of-Thought).
- سنجش اثرات جانبی بر قابلیتهای عمومی مدل.
- تست در سناریوهای متنوع شامل سوگیری، اطلاعات نادرست و نقض پروتکلهای ایمنی.
بر اساس مستندات این پژوهش، مقیاس ویرایش، ویژگیهای دانش تزریقشده و پیچیدگی استدلال، عوامل اصلی اثرگذار بر این ریسکها هستند. این یافتهها نشان میدهد که گاردریلهای (Guardrails) فعلی در برابر ویرایشهای «پنهانی» که روان بودن متن را حفظ میکنند اما مسیرهای استدلالی را مسموم میکنند، کاملاً کور هستند.
این موضوع برای جامعه فنی به این معناست که هدف ارزیابی باید از «کارایی» (Efficacy) — یعنی اینکه آیا مدل واقعیت جدید را یاد گرفته یا خیر — به «قابلیت اطمینان» (Reliability) — یعنی اینکه آیا آن واقعیت منطق مدل را شکسته است یا خیر — تغییر کند.
گام بعدی شما
- برای ارزیابی تابآوری مدلهای خود در برابر فساد هدفمند دانش، منتظر انتشار محیط تست (Testbed) مربوط به EditRisk-Bench باشید.
- ارزیابیهای ایمنی خود را از بررسیهای سادهی واقعسنجی به سمت ارزیابیهای «آگاه به استدلال» (Reasoning-aware) ببرید.
- در استقرار مدلهای حساس، هرگونه ویرایش دانش را با تستهای استرس منطقی بازبینی کنید.
اما این آسیبپذیری تنها بخشی از یک معمای بزرگتر است؛ برای درک نحوه مقابله با توهمات سیستماتیک، تحلیل ما دربارهی RAG پیشرفته را بخوانید.




گفتگو