باید بدانید که فرض «امنیت مدل بنیادی»، در مواجهه با شخصیسازی به کلی فرو میپاشد. اگر تصور میکنید مدلهای ایمن پس از تطبیق با نیاز کاربر همچنان بیخطر میمانند، با یک نقطه کور امنیتی جدی روبرو هستید.
در حالی که صنعت به سمت عاملهای هوشمند (AI Agents) پیش میرود، تمرکز از مدلهای همگانی به سمت سیستمهایی تغییر کرده است که تاریخچه بلندمدت کاربر را میشناسند. همانطور که در تحلیل قبلی ما دربارهی شکافهای استدلالی سختافزاری در RTL-BenchLS اشاره کردیم، تخصصیافتگی مدلها همواره با مخاطرات جدیدی همراه است و این بار، تقاطع میان تطبیق کاربر-محور و امنیت مدل، نقطهی شکست است.
طبق گزارشی که در ۹ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، پژوهشگران به سرپرستی Yanyan Luo استدلال میکنند که ارزیابیهای امنیتی فعلی اساساً معیوب هستند؛ زیرا امنیت را یک ویژگی ایستا میبینند، نه یک رابطه پویا میان مدل و کاربر خاص. بر اساس مستندات این مقاله، آسیبپذیریهای شناسایی شده در چهار حوزه کلیدی توزیع شدهاند:
- پرامپتنویسی و تولید بازیابیافزا (RAG)
- تنظیم دقیق (Fine-tuning) پارامترها و یادگیری تقویتشده (RL)
- معماری ترکیب متخصصان (Mixture-of-Experts)، هرس (Pruning) و چارچوبهای عاملمحور
- شخصیسازی در مدلهای چندوجهی (Multimodal)
این پژوهش با بررسی موردی OpenClaw نشان میدهد که امنیت معمولاً «مستقل از کاربر» ارزیابی میشود و تکنیکهای شخصیسازی به صورت مجزا تحلیل میشوند، نه در ترکیب با یکدیگر. به نقل از نویسندگان، این رویکرد باعث میشود ریسکهای نوظهوری که در بلندمدت شکل میگیرند، نادیده گرفته شوند.
این یافتهها اساس فرضیه «مدل بنیادی ایمن» را به چالش میکشد. در واقع، یک پرامپت ممکن است برای عموم کاربران بیخطر باشد، اما وقتی با بازنمایی دادههای یک کاربر خاص ترکیب شود، منجر به خروجیهای خطرناک شود. بنابراین، صنعت باید از بنچمارکهای استاتیک به سمت معیارهای «امنیت رابطهای» حرکت کند.
گام بعدی شما
- توسعهدهندگان عاملهای شخصیسازی شده باید اولویت خود را از Red-Teaming استاتیک به ایجاد مجموعه دادههای «امنیت رابطهای» تغییر دهند.
- متدهای ارزیابی جدیدی را دنبال کنید که قادر به ردیابی ریسکهای نوظهور در تعاملات بلندمدت کاربر و مدل هستند.
اما اثر این آسیبپذیریها بر مدلهای متنباز که دسترسی گستردهتری دارند حتی نگرانکنندهتر است؛ در تحلیل بعدی ما دربارهی امنیت مدلهای لبه (Edge AI) این موضوع را بررسی خواهیم کرد.
گفتگو