اگر امروز یک عامل هوشمند را برای مدیریت دادههای حساس مشتریانتان بهکار میگیرید، احتمالاً به «وعدههای ایمنی» سازندهاش اعتماد کردهاید؛ اما این اعتماد در اولین بازرسی فنی فرو میریزد. ادعاهای ذهی دربارهای ایمنی هوش مصنوعی دیگر برای حسابرسها پذیرفته نیست و باید جای خود را به معیارهای عددی و قابلتکرار بدهند.
به همین دلیل است که LuisCore در ۲۴ ژوئن ۲۰۲۶، ابزار GovernedBench v0 را معرفی کرد. این ابزار به جای قصههای نمایشی برای اثبات ایمنی، مجموعهای از سناریوهای ایستا را ارائه میدهد تا حاکمیت بر عاملها (Agent Governance) را از حالت «به ما اعتماد کنید» به «استناد کنید و تأیید کنید» تغییر دهد. این تلاش برای استانداردسازی نظارت بر خروجیها، در راستای تحولی است که اخیراً در پروژه CIAware-Bench برای شناسایی دقیق مداخلات نظارتی توسط مدلهای پیشرو مشاهده شد.
عامل (Agent) — شبیه کارمندی است که نه تنها حرف میزند، بلکه میتواند ابزارهای مختلف را برای انجام یک مأموریت مدیریت کند — اکنون نیاز دارد که رفتارش بر اساس استانداردهای خوانهشده توسط ماشین سنجیده شود. همانطور که در تحلیلهای قبلی ما دربارهی امنیت مدلهای بازمتن اشاره کردیم، شکاف بین توانایی مدل و کنترلپذیری آن، بزرگترین ریسک استقرار فعلی است. برای مقابله با این ریسک، راهکارهای متعددی نظیر رویکرد MoClaw برای جلوگیری از اقدامات مخرب و کاهش خطاهای تغییر هدف در عاملها توسعه یافتهاند.
طبق اعلام LuisCore در مستندات فنی این پروژه، این چارچوب بر انطباق با استاندارد DM-1 تمرکز دارد. هر سناریو، میدانهای مانیفست مورد نیاز، انواع استنادات و محدودیتهای سیاستی را تعریف میکند. برخی از سناریوهای کلیدی عبارتند از:
- حذف دادههای GDPR: پاکسازی اطلاعات شناسایی شخصی (PII) از ذخیرهسازها، که نیازمند برچسبهای
veloraithVerdictوpolicyConstraintsاست. - ایمیلهای خروجی: اطمینان از اینکه عاملها حتماً پاو-تکسهای (footers) انطباق قانونی را در ارتباط با مشتری قرار میدهند.
- سیگنالهای معاملاتی: انتشار سیگنالهای جهتدار که باید شامل افشای ریسکهای مشخص باشند.
- استخدام کاندیداها: ارسال نامههای پیشنهاد شغلی تنها پس از تکمیل بررسی پیشینه.
به گزارش این شرکت، اپراتورها این مانیفستها را از طریق dm-conformance.ts اجرا کرده و نتایج را در سامانه حسابرسی Veloraith ثبت میکنند. این روند تضمین میکند که خروجی عامل با وزنهای پیشبینیشده سناریو مطابقت داشته باشد، نه با یک معیار داخلی و دلخواه.
این تغییر، گذاری از ایمنی کیفی به حاکمیت کمی است. با اجبار عاملها به پیروی از مانیفستهای تعریفشده با JSON، رفتار آنها مانند یک زیرساخت قابلوریدی (Verifiable Infrastructure) دیده میشود. این رویکرد ریسک «شکستهای خاموش» را کاهش میدهد؛ یعنی حالتی که عامل وظیفه را انجام میدهد اما یک سیاست حیاتی قانونی را نقض میکند.
برای توسعهدهندگان، ایمنی دیگر یک توضیح پس از حادثه نیست، بلکه پیشنیازی برای استقرار است. ادغام خط لوله عملیاتی Chorus نیز امکان اجرای موازی گمانهزنانه با شاخههای رتبهبندیشده بر اساس پاداش را فراهم میکند تا compliantترین مسیر انتخاب شود.
گام بعدی شما
- برای شروع پیادهسازی این حسابرسیها در استک عاملهای خود، فایل
for-agents.jsonرا بررسی کنید. - مجموعهداده GovernedBench را از طریق Zenodo (DOI: 10.5281/zenodo.14207466) دریافت کنید.
- بررسی کنید کدام سناریوهای قانونی (مانند GDPR) در حال حاضر نقطه ضعف سیستم شما هستند.
اما چالش اصلی، تأمین سختافزاری برای اجرای این لایههای نظارتی است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو