کدام مدل زبانی در برابر نشت کلیدهای امنیتی مقاوم‌تر است؟

منبع خبر

۲۸ خرداد ۱۴۰۵·۲۸ خرداد ۱۴۰۵۳ دقیقه مطالعه

تست نشت اطلاعات در ۵ مدل زبانی بزرگ با حمله تزریق پرامپت: از ۰ تا ۹۰ درصد

اشتراک‌گذاری

واقعاً چه چیز جدید است؟

اثبات اینکه یک کد واحد برای عامل، بسته به مدل backend، رفتارهای امنیتی کاملاً متفاوتی دارد و حملات «مبهم» (Disguised) به‌طور موثرتری از حملات «مستقیم» در عبور از حفاظ‌ها موفق بوده‌اند.

اگر امروز در حال استقرار یک عامل هوش مصنوعی با میزبانی شخصی (Self-hosting) هستید، انتخاب مدل شما صرفاً یک تصمیم فنی نیست، بلکه یک تصمیم امنیتی است. طبق یک تست امنیتی که در ۱۸ ژوئن ۲۰۲۶ منتشر شد، یک کد واحد برای عامل، بسته به مدل زبانی بزرگ (LLM) — که شبیه کتابخانه‌داری است که میلیاردها صفحه را خوانده و حالا با همان لحن جواب می‌دهد — می‌تواند نرخ نشتی بین ۰ تا ۹۰ درصد داشته باشد.

این آسیب‌پذیری در حالی رخ می‌دهد که تزریق پرامپت (Prompt Injection) جایگاه نخست لیست ۱۰ مورد حیاتی OWASP ۲۰۲۵ را تصاحب کرده است. این چالش‌ها نشان می‌دهند که حتی با پیشرفت‌های فنی، دقت دکودرها به تنهایی برای متوقف کردن تزریق‌های پیچیده پرامپت کافی نیست و لایه‌های دفاعی باید جامع‌تر باشند. بر اساس گزارش‌های فنی، ریسک این موضوع دیگر تئوری نیست؛ نقص EchoLeak (با شناسه CVE-2025-32711) پیش‌تر نشان داد که Copilot مایکروسافت ۳۶۵ می‌تواند فایل‌های داخلی را تنها با یک ایمیل مهندسی‌شده استخراج کند. همان‌طور که در تحلیل قبلی ما درباره‌ی امنیت مدل‌های بازمتن اشاره کردیم، لایه‌های حفاظتی اغلب نازک‌تر از آن چیزی هستند که به نظر می‌رسد.

پژوهشگر این مطالعه با استفاده از ابزار agentproof-scan، پنج مدل را در ۱۰ دور اجرا آزمایش کرد. نتایج به‌صورت صریح نشان می‌دهد:

OpenAI gpt-3.5: نرخ نشت ۹۰ درصدی
Google Gemini 2.5-flash: نرخ نشت ۷۰ درصدی
Mistral Small: نرخ نشت ۳۰ درصدی
xAI Grok-3: نرخ نشت ۰ درصدی
Anthropic Claude Haiku 4.5: نشت کلید ۰ درصد، اما افشای ۹۰ درصدی پرامپت سیستمی (System Prompt)

به نقل از گزارش dev.to، حملات مستقیم (مانند «دستورات قبلی را نادیده بگیر») تقریباً در همه جا شکست خوردند. در عوض، «درخواست‌های مبهم» — یعنی جایی که حمله در قالب یک کار قانونی (مثلاً درخواست پیکربندی به فرمت JSON برای تیم عملیات) ظاهر می‌شود — توانستند حفاظ‌ها (Guardrails) را دور بزنند.

برای توسعه‌دهندگان، این یعنی امتیاز «امن» در اسکنرهای ساده گمراه‌کننده است. از آن‌جایی که Claude Haiku 4.5 کلیدهای API را مخفی کرد اما محتوای پرامپت سیستمی را بازگو کرد، اسکنری که فقط دنبال رشته‌های متنی شبیه به رمز است، آن را امن می‌بیند. شما باید بین نشت «کلیدهای خزانه» و افشای «دفترچه راهنمای امنیتی» تفاوت قائل شوید.

گام بعدی شما

مخزن agentproof را در گیت‌هاب بررسی کنید تا منطق عامل‌های خود را آزمایش کنید.
به‌جای تکیه بر وعده‌های ارائه‌دهنده، تست‌های نفوذ مبتنی بر «درخواست‌های مبهم» را در محیط Staging اجرا کنید.
اگر از مدل‌های سری 3.5 استفاده می‌کنید، هرچه سریع‌تر به مدل‌های استدلالی جدیدتر مهاجرت کنید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

چرا این موضوع مهم است؟

این یافته بر اساس متدولوژی تیم‌های قرمز (Red Teaming) نشان می‌دهد که مدل‌های سریع‌تر و ارزان‌تر (Flash) معمولاً در برابر حملات پیچیده آسیب‌پذیرترند. این موضوع اعتبار ادعاهای امنیتی شرکت‌های بزرگ را به چالش می‌کشد و ضرورت نظارت لایه به لایه را ثابت می‌کند.

تأثیر برای ایران

برای توسعه‌دهندگانی که از طریق APIهای واسط به مدل‌های OpenAI و گوگل دسترسی دارند، این داده‌ها هشدار می‌دهد که تکیه بر امنیتِ پیش‌فرضِ مدل کافی نیست و باید لایه‌های اعتبارسنجی خروجی را در سمت سرور پیاده کنند.

·نگاه ما

تحریریه دات‌هوش

اعتماد به لایه‌های حفاظتی داخلیِ ارائه‌دهندگان مدل، بزرگ‌ترین نقطه ضعف در معماری عامل‌های فعلی است. این داده‌ها ثابت می‌کنند که امنیت در عصر هوش مصنوعی زاینده، یک ویژگی تکمیلی نیست، بلکه تابعی از انتخاب مدل است؛ یعنی یک مدل ضعیف می‌تواند کل امنیت کدِ بهینه شما را خنثی کند.

منابع

dev.toDev.to AI

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

موضوع‌ها

عامل‌محور همراستاسازی مدل‌های بازوزن

گفتگو

بسته‌ی هفتگی دات‌هوش

۵ خبر، ۲ ابزار، ۱ پرامپت در هر شماره. به‌زودی راه‌اندازی می‌شود — هر پنج‌شنبه صبح.

خبر کلیدی

ابزار کاربردی

پرامپت حرفه‌ای

تحلیل پژوهش

به‌زودی

زاویه‌ی ایرانی

به‌زودی

تمرین این هفته

به‌زودی

یاتلگرام RSS

راهنماهای دات‌هوش

راهنماهای کاربردیِ دات‌هوش برای کار با هوش مصنوعی — از همین‌جا شروع کنید:

دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

OpenAI gpt-3.5: نرخ نشت ۹۰ درصدی
Google Gemini 2.5-flash: نرخ نشت ۷۰ درصدی
Mistral Small: نرخ نشت ۳۰ درصدی
xAI Grok-3: نرخ نشت ۰ درصدی
Anthropic Claude Haiku 4.5: نشت کلید ۰ درصد، اما افشای ۹۰ درصدی پرامپت سیستمی (System Prompt)

گام بعدی شما

مخزن agentproof را در گیت‌هاب بررسی کنید تا منطق عامل‌های خود را آزمایش کنید.
به‌جای تکیه بر وعده‌های ارائه‌دهنده، تست‌های نفوذ مبتنی بر «درخواست‌های مبهم» را در محیط Staging اجرا کنید.
اگر از مدل‌های سری 3.5 استفاده می‌کنید، هرچه سریع‌تر به مدل‌های استدلالی جدیدتر مهاجرت کنید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

کدام مدل زبانی در برابر نشت کلیدهای امنیتی مقاوم‌تر است؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

کدام مدل زبانی در برابر نشت کلیدهای امنیتی مقاوم‌تر است؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران