اگر امروز در حال استقرار یک عامل هوش مصنوعی با میزبانی شخصی (Self-hosting) هستید، انتخاب مدل شما صرفاً یک تصمیم فنی نیست، بلکه یک تصمیم امنیتی است. طبق یک تست امنیتی که در ۱۸ ژوئن ۲۰۲۶ منتشر شد، یک کد واحد برای عامل، بسته به مدل زبانی بزرگ (LLM) — که شبیه کتابخانهداری است که میلیاردها صفحه را خوانده و حالا با همان لحن جواب میدهد — میتواند نرخ نشتی بین ۰ تا ۹۰ درصد داشته باشد.
این آسیبپذیری در حالی رخ میدهد که تزریق پرامپت (Prompt Injection) جایگاه نخست لیست ۱۰ مورد حیاتی OWASP ۲۰۲۵ را تصاحب کرده است. این چالشها نشان میدهند که حتی با پیشرفتهای فنی، دقت دکودرها به تنهایی برای متوقف کردن تزریقهای پیچیده پرامپت کافی نیست و لایههای دفاعی باید جامعتر باشند. بر اساس گزارشهای فنی، ریسک این موضوع دیگر تئوری نیست؛ نقص EchoLeak (با شناسه CVE-2025-32711) پیشتر نشان داد که Copilot مایکروسافت ۳۶۵ میتواند فایلهای داخلی را تنها با یک ایمیل مهندسیشده استخراج کند. همانطور که در تحلیل قبلی ما دربارهی امنیت مدلهای بازمتن اشاره کردیم، لایههای حفاظتی اغلب نازکتر از آن چیزی هستند که به نظر میرسد.
پژوهشگر این مطالعه با استفاده از ابزار agentproof-scan، پنج مدل را در ۱۰ دور اجرا آزمایش کرد. نتایج بهصورت صریح نشان میدهد:
- OpenAI gpt-3.5: نرخ نشت ۹۰ درصدی
- Google Gemini 2.5-flash: نرخ نشت ۷۰ درصدی
- Mistral Small: نرخ نشت ۳۰ درصدی
- xAI Grok-3: نرخ نشت ۰ درصدی
- Anthropic Claude Haiku 4.5: نشت کلید ۰ درصد، اما افشای ۹۰ درصدی پرامپت سیستمی (System Prompt)
به نقل از گزارش dev.to، حملات مستقیم (مانند «دستورات قبلی را نادیده بگیر») تقریباً در همه جا شکست خوردند. در عوض، «درخواستهای مبهم» — یعنی جایی که حمله در قالب یک کار قانونی (مثلاً درخواست پیکربندی به فرمت JSON برای تیم عملیات) ظاهر میشود — توانستند حفاظها (Guardrails) را دور بزنند.
برای توسعهدهندگان، این یعنی امتیاز «امن» در اسکنرهای ساده گمراهکننده است. از آنجایی که Claude Haiku 4.5 کلیدهای API را مخفی کرد اما محتوای پرامپت سیستمی را بازگو کرد، اسکنری که فقط دنبال رشتههای متنی شبیه به رمز است، آن را امن میبیند. شما باید بین نشت «کلیدهای خزانه» و افشای «دفترچه راهنمای امنیتی» تفاوت قائل شوید.
گام بعدی شما
- مخزن agentproof را در گیتهاب بررسی کنید تا منطق عاملهای خود را آزمایش کنید.
- بهجای تکیه بر وعدههای ارائهدهنده، تستهای نفوذ مبتنی بر «درخواستهای مبهم» را در محیط Staging اجرا کنید.
- اگر از مدلهای سری 3.5 استفاده میکنید، هرچه سریعتر به مدلهای استدلالی جدیدتر مهاجرت کنید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.

گفتگو