تصور کنید عاملی که مدیریت تقویم و حساب بانکی شما را بر عهده دارد، ناگهان کلیدهای خصوصی API شما را فاش کند. اگر فکر میکنید انعطافپذیری بالای عاملهای هوش مصنوعی (AI Agents) یک مزیت است، باید بدانید که همین ویژگی، بزرگترین حفره امنیتی آنهاست.
در ۷ مه ۲۰۲۶، پژوهشگران پلتفرم DecodingTrust-Agent Platform یا همان DTap را معرفی کردند؛ نخستین محیط تعاملی و کنترلشده برای تیم قرمز (Red-teaming) که بهطور اختصاصی برای عاملها طراحی شده است. به نقل از مقاله منتشر شده در arxiv.org، این پلتفرم به توسعهدهندگان اجازه میدهد تا پیش از استقرار در محیط عملیاتی، عاملها را در سناریوهای پرخطر بهطور سیستماتیک تحت فشار قرار دهند.
برای دستیابی به این هدف، DTap مقیاس عظیمی از شبیهسازیها را ارائه میدهد:
- ۱۴ دامنه واقعی و بیش از ۵۰ محیط شبیهسازیشده که سیستمهای پرکاربردی نظیر Google Workspace، Paypal و Slack را بازسازی میکنند.
- DTap-Red؛ یک عامل خودکار برای تیم قرمز که با کاوش در بردارهای تزریق پرامپت، ابزار و محیط، استراتژیهای تهاجمی مؤثر را کشف میکند.
- DTap-Bench؛ مجموعهای گسترده از نمونههای حمله که توسط داوران قابلتأیید، بهطور خودکار ارزیابی میشوند تا موفقیت یا شکست حمله مشخص شود.
همانطور که در تحلیلهای پیشین ما دربارهی امنیت مدلهای بازمتن اشاره کردیم، کنترل دسترسی در سیستمهای عاملمحور (Agentic) همواره یک چالش بوده است. طبق اعلام پژوهشگران، در حالی که تلاشهای قبلی مانند AgentTrust بر رهگیری لحظهای فراخوانهای ابزاری ناامن (مانند دستورات Shell یا درخواستهای HTTP) تمرکز داشتند، DTap زیرساختی را فراهم میکند تا این آسیبپذیریها را پیشدستانه و از طریق رفتارهای متخاصم شبیهسازیشده کشف کند.
این پژوهش با افشای الگوهای سیستماتیک آسیبپذیری در مدلهای بنیادی محبوب، نقشهای برای ساخت نسل بعدی عاملهای امن فراهم میکند. با افزایش استقلال این سیستمها در جریانهای کاری شرکتی و مالی، این پرسش حیاتی مطرح میشود که آیا تیمهای قرمز خودکار میتوانند با سرعت استقرار عاملها همگام شوند یا خیر.
اما این تنها بخشی از معماری دفاعی است؛ برای درک چگونگی مقابله با حملات تزریق پرامپت، تحلیل ما دربارهی لایههای امنیتی مدلهای زبانی را بخوانید.
گام بعدی شما
- بررسی مجموعهداده DTap-Bench برای شناسایی نقاط ضعف احتمالی در عاملهای داخلی سازمان.
- پیادهسازی رویکرد «تیم قرمز خودکار» پیش از هر بهروزرسانی در دسترسیهای API عاملها.
- محدود کردن دسترسیهای ابزاری عاملها بر اساس اصل «حداقل دسترسی» (Least Privilege).




گفتگو