رانش پارامترها؛ حفره‌ی پنهانی که امنیت مدل‌های زبانی را می‌بلعد

تصور کنید تنها چند نمونه داده‌ی کاملاً بی‌خطر بتوانند میلیون‌ها ساعت آموزش امنیتی یک مدل را به کلی پاک کنند. اگر هنوز تصور می‌کنید فیلتر کردن کلمات توهین‌آمیز از داده‌های آموزش کافی است، باید بدانید که امنیت مدل‌های شما در سطح ریاضیاتی در حال فروپاشی است.

طبق گزارشی که در ۷ می ۲۰۲۶ در arxiv.org منتشر شد، همراستاسازی (Alignment) در مدل‌های زبانی بزرگ (Large Language Models - LLMs) بسیار شکننده‌تر از آن چیزی است که تصور می‌شد. پژوهشگران مکانیزمی بحرانی را شناس کرده‌اند که در آن تنظیم دقیق (Fine-tuning) حتی با داده‌های سالم، باعث می‌شود پارامترهای مدل به طور تجمعی به سمت جهت‌های «خطر-همراستا» رانش یابند.

به نقل از این مستندات، این رانش پارامترها (Parameter Drift) به تدریج لایه‌های امنیتی مدل را تخریب می‌کند، حتی اگر داده‌های آموزشی هیچ محتوای مضر یا مخربی نداشته باشند. برای توقف این سقوط، تیم تحقیق متدی به نام کمی‌سازی تخریب امنیت در سطح نمونه (Sample-Level Quantification of Safety Degradation - SQSD) را معرفی کرده است تا دقیقاً شناسایی کند کدام نمونه‌های آموزشی باعث این فروپاشی می‌شوند.

سازوکار SQSD بر اساس منطق فنی زیر عمل می‌کند:

اندازه‌گیری تفاوت تصویر (Projection Difference) به‌روزرسانی‌های پارامتری بین جهت‌های خطر و امنیت.
کمی‌سازی تأثیر هر نمونه‌ی داده بر تخریب کلی امنیت مدل.
قابلیت انتقال بالا در معماری‌های مختلف و روش‌های تنظیم دقیق کارآمد پارامتر (Parameter-Efficient Fine-Tuning - PEFT).

همان‌طور که در تحلیل‌های پیشین خود درباره‌ی تله‌های نامرئی در vLLM V1 اشاره کردیم، پایداری مدل‌ها در برابر تغییرات کوچک، همیشه یک چالش بنیادین بوده است. این کشف جدید ثابت می‌کند که داده‌های آموزشی، فارغ از نیت ظاهری‌شان، می‌توانند یک تهدید سیستمی باشند. بر اساس بررسی‌های این مطالعه، در حالی که مدل‌ها با میلیون‌ها نمونه ترجیحی برای حفظ امنیت آموزش می‌بینند، تعداد اندکی از نمونه‌های بی‌خطر می‌توانند این رفتارها را به طور موثر پاک کنند.

با حرکت توسعه‌دهندگان به سمت تنظیمات دقیق تهاجمی‌تر، صنعت باید پیش از هر به‌روزرسانی گرادیان، فیلترینگ داده‌های «آگاه به امنیت» را جایگزین روش‌های سنتی کند.

اما این آسیب‌پذیری تنها بخشی از یک معماری متزلزل‌تر است؛ در گزارش بعدی، اثر این رانش بر مدل‌های استدلالی را بررسی خواهیم کرد.

گام بعدی شما

مجموعه‌های داده‌ی تنظیم دقیق خود را با متدولوژی SQSD برای شناسایی نمونه‌های «مخربِ بی‌خطر» بازبینی کنید.
بنچمارک‌های امنیتی را پس از هر اپوک (Epoch) آموزش، نه فقط در پایان پروژه، اجرا کنید.
در صورت استفاده از PEFT، اثر رانش پارامترها را روی لایه‌های منجمد شده (Frozen Layers) پایش کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

سازوکار SQSD بر اساس منطق فنی زیر عمل می‌کند:

اندازه‌گیری تفاوت تصویر (Projection Difference) به‌روزرسانی‌های پارامتری بین جهت‌های خطر و امنیت.
کمی‌سازی تأثیر هر نمونه‌ی داده بر تخریب کلی امنیت مدل.
قابلیت انتقال بالا در معماری‌های مختلف و روش‌های تنظیم دقیق کارآمد پارامتر (Parameter-Efficient Fine-Tuning - PEFT).

گام بعدی شما

مجموعه‌های داده‌ی تنظیم دقیق خود را با متدولوژی SQSD برای شناسایی نمونه‌های «مخربِ بی‌خطر» بازبینی کنید.
بنچمارک‌های امنیتی را پس از هر اپوک (Epoch) آموزش، نه فقط در پایان پروژه، اجرا کنید.
در صورت استفاده از PEFT، اثر رانش پارامترها را روی لایه‌های منجمد شده (Frozen Layers) پایش کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رانش پارامترها؛ حفره‌ی پنهانی که امنیت مدل‌های زبانی را می‌بلعد

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رانش پارامترها؛ حفره‌ی پنهانی که امنیت مدل‌های زبانی را می‌بلعد

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رانش پارامترها؛ حفره‌ی پنهانی که امنیت مدل‌های زبانی را می‌بلعد

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

رانش پارامترها؛ حفره‌ی پنهانی که امنیت مدل‌های زبانی را می‌بلعد

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران