تصور کنید تنها چند نمونه دادهی کاملاً بیخطر بتوانند میلیونها ساعت آموزش امنیتی یک مدل را به کلی پاک کنند. اگر هنوز تصور میکنید فیلتر کردن کلمات توهینآمیز از دادههای آموزش کافی است، باید بدانید که امنیت مدلهای شما در سطح ریاضیاتی در حال فروپاشی است.
طبق گزارشی که در ۷ می ۲۰۲۶ در arxiv.org منتشر شد، همراستاسازی (Alignment) در مدلهای زبانی بزرگ (Large Language Models - LLMs) بسیار شکنندهتر از آن چیزی است که تصور میشد. پژوهشگران مکانیزمی بحرانی را شناس کردهاند که در آن تنظیم دقیق (Fine-tuning) حتی با دادههای سالم، باعث میشود پارامترهای مدل به طور تجمعی به سمت جهتهای «خطر-همراستا» رانش یابند.
به نقل از این مستندات، این رانش پارامترها (Parameter Drift) به تدریج لایههای امنیتی مدل را تخریب میکند، حتی اگر دادههای آموزشی هیچ محتوای مضر یا مخربی نداشته باشند. برای توقف این سقوط، تیم تحقیق متدی به نام کمیسازی تخریب امنیت در سطح نمونه (Sample-Level Quantification of Safety Degradation - SQSD) را معرفی کرده است تا دقیقاً شناسایی کند کدام نمونههای آموزشی باعث این فروپاشی میشوند.
سازوکار SQSD بر اساس منطق فنی زیر عمل میکند:
- اندازهگیری تفاوت تصویر (Projection Difference) بهروزرسانیهای پارامتری بین جهتهای خطر و امنیت.
- کمیسازی تأثیر هر نمونهی داده بر تخریب کلی امنیت مدل.
- قابلیت انتقال بالا در معماریهای مختلف و روشهای تنظیم دقیق کارآمد پارامتر (Parameter-Efficient Fine-Tuning - PEFT).
همانطور که در تحلیلهای پیشین خود دربارهی تلههای نامرئی در vLLM V1 اشاره کردیم، پایداری مدلها در برابر تغییرات کوچک، همیشه یک چالش بنیادین بوده است. این کشف جدید ثابت میکند که دادههای آموزشی، فارغ از نیت ظاهریشان، میتوانند یک تهدید سیستمی باشند. بر اساس بررسیهای این مطالعه، در حالی که مدلها با میلیونها نمونه ترجیحی برای حفظ امنیت آموزش میبینند، تعداد اندکی از نمونههای بیخطر میتوانند این رفتارها را به طور موثر پاک کنند.
با حرکت توسعهدهندگان به سمت تنظیمات دقیق تهاجمیتر، صنعت باید پیش از هر بهروزرسانی گرادیان، فیلترینگ دادههای «آگاه به امنیت» را جایگزین روشهای سنتی کند.
اما این آسیبپذیری تنها بخشی از یک معماری متزلزلتر است؛ در گزارش بعدی، اثر این رانش بر مدلهای استدلالی را بررسی خواهیم کرد.
گام بعدی شما
- مجموعههای دادهی تنظیم دقیق خود را با متدولوژی SQSD برای شناسایی نمونههای «مخربِ بیخطر» بازبینی کنید.
- بنچمارکهای امنیتی را پس از هر اپوک (Epoch) آموزش، نه فقط در پایان پروژه، اجرا کنید.
- در صورت استفاده از PEFT، اثر رانش پارامترها را روی لایههای منجمد شده (Frozen Layers) پایش کنید.




گفتگو