۵۰ محیط شبیه‌سازی‌شده در DTap؛ پایان امنیت کاذب در عامل‌های هوش مصنوعی

تصور کنید عاملی که مدیریت تقویم و حساب بانکی شما را بر عهده دارد، ناگهان کلیدهای خصوصی API شما را فاش کند. اگر فکر می‌کنید انعطاف‌پذیری بالای عامل‌های هوش مصنوعی (AI Agents) یک مزیت است، باید بدانید که همین ویژگی، بزرگ‌ترین حفره امنیتی آن‌هاست.

در ۷ مه ۲۰۲۶، پژوهشگران پلتفرم DecodingTrust-Agent Platform یا همان DTap را معرفی کردند؛ نخستین محیط تعاملی و کنترل‌شده برای تیم قرمز (Red-teaming) که به‌طور اختصاصی برای عامل‌ها طراحی شده است. به نقل از مقاله منتشر شده در arxiv.org، این پلتفرم به توسعه‌دهندگان اجازه می‌دهد تا پیش از استقرار در محیط عملیاتی، عامل‌ها را در سناریوهای پرخطر به‌طور سیستماتیک تحت فشار قرار دهند.

برای دستیابی به این هدف، DTap مقیاس عظیمی از شبیه‌سازی‌ها را ارائه می‌دهد:

۱۴ دامنه واقعی و بیش از ۵۰ محیط شبیه‌سازی‌شده که سیستم‌های پرکاربردی نظیر Google Workspace، Paypal و Slack را بازسازی می‌کنند.
DTap-Red؛ یک عامل خودکار برای تیم قرمز که با کاوش در بردارهای تزریق پرامپت، ابزار و محیط، استراتژی‌های تهاجمی مؤثر را کشف می‌کند.
DTap-Bench؛ مجموعه‌ای گسترده از نمونه‌های حمله که توسط داوران قابل‌تأیید، به‌طور خودکار ارزیابی می‌شوند تا موفقیت یا شکست حمله مشخص شود.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی امنیت مدل‌های بازمتن اشاره کردیم، کنترل دسترسی در سیستم‌های عامل‌محور (Agentic) همواره یک چالش بوده است. طبق اعلام پژوهشگران، در حالی که تلاش‌های قبلی مانند AgentTrust بر رهگیری لحظه‌ای فراخوان‌های ابزاری ناامن (مانند دستورات Shell یا درخواست‌های HTTP) تمرکز داشتند، DTap زیرساختی را فراهم می‌کند تا این آسیب‌پذیری‌ها را پیش‌دستانه و از طریق رفتارهای متخاصم شبیه‌سازی‌شده کشف کند.

این پژوهش با افشای الگوهای سیستماتیک آسیب‌پذیری در مدل‌های بنیادی محبوب، نقشه‌ای برای ساخت نسل بعدی عامل‌های امن فراهم می‌کند. با افزایش استقلال این سیستم‌ها در جریان‌های کاری شرکتی و مالی، این پرسش حیاتی مطرح می‌شود که آیا تیم‌های قرمز خودکار می‌توانند با سرعت استقرار عامل‌ها همگام شوند یا خیر.

اما این تنها بخشی از معماری دفاعی است؛ برای درک چگونگی مقابله با حملات تزریق پرامپت، تحلیل ما درباره‌ی لایه‌های امنیتی مدل‌های زبانی را بخوانید.

گام بعدی شما

بررسی مجموعه‌داده DTap-Bench برای شناسایی نقاط ضعف احتمالی در عامل‌های داخلی سازمان.
پیاده‌سازی رویکرد «تیم قرمز خودکار» پیش از هر به‌روزرسانی در دسترسی‌های API عامل‌ها.
محدود کردن دسترسی‌های ابزاری عامل‌ها بر اساس اصل «حداقل دسترسی» (Least Privilege).

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

برای دستیابی به این هدف، DTap مقیاس عظیمی از شبیه‌سازی‌ها را ارائه می‌دهد:

۱۴ دامنه واقعی و بیش از ۵۰ محیط شبیه‌سازی‌شده که سیستم‌های پرکاربردی نظیر Google Workspace، Paypal و Slack را بازسازی می‌کنند.
DTap-Red؛ یک عامل خودکار برای تیم قرمز که با کاوش در بردارهای تزریق پرامپت، ابزار و محیط، استراتژی‌های تهاجمی مؤثر را کشف می‌کند.
DTap-Bench؛ مجموعه‌ای گسترده از نمونه‌های حمله که توسط داوران قابل‌تأیید، به‌طور خودکار ارزیابی می‌شوند تا موفقیت یا شکست حمله مشخص شود.

گام بعدی شما

بررسی مجموعه‌داده DTap-Bench برای شناسایی نقاط ضعف احتمالی در عامل‌های داخلی سازمان.
پیاده‌سازی رویکرد «تیم قرمز خودکار» پیش از هر به‌روزرسانی در دسترسی‌های API عامل‌ها.
محدود کردن دسترسی‌های ابزاری عامل‌ها بر اساس اصل «حداقل دسترسی» (Least Privilege).

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

۵۰ محیط شبیه‌سازی‌شده در DTap؛ پایان امنیت کاذب در عامل‌های هوش مصنوعی

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

۵۰ محیط شبیه‌سازی‌شده در DTap؛ پایان امنیت کاذب در عامل‌های هوش مصنوعی

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

۵۰ محیط شبیه‌سازی‌شده در DTap؛ پایان امنیت کاذب در عامل‌های هوش مصنوعی

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

۵۰ محیط شبیه‌سازی‌شده در DTap؛ پایان امنیت کاذب در عامل‌های هوش مصنوعی

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران