«جایگزینی وعده‌های مبهم با بازپذیری»؛ رویکرد جدید LuisCore در حاکمیت AI

اگر امروز یک عامل هوشمند را برای مدیریت داده‌های حساس مشتریانتان به‌کار می‌گیرید، احتمالاً به «وعده‌های ایمنی» سازنده‌اش اعتماد کرده‌اید؛ اما این اعتماد در اولین بازرسی فنی فرو می‌ریزد. ادعاهای ذهی درباره‌ای ایمنی هوش مصنوعی دیگر برای حساب‌رس‌ها پذیرفته نیست و باید جای خود را به معیارهای عددی و قابل‌تکرار بدهند.

به همین دلیل است که LuisCore در ۲۴ ژوئن ۲۰۲۶، ابزار GovernedBench v0 را معرفی کرد. این ابزار به جای قصه‌های نمایشی برای اثبات ایمنی، مجموعه‌ای از سناریوهای ایستا را ارائه می‌دهد تا حاکمیت بر عامل‌ها (Agent Governance) را از حالت «به ما اعتماد کنید» به «استناد کنید و تأیید کنید» تغییر دهد. این تلاش برای استانداردسازی نظارت بر خروجی‌ها، در راستای تحولی است که اخیراً در پروژه CIAware-Bench برای شناسایی دقیق مداخلات نظارتی توسط مدل‌های پیشرو مشاهده شد.

عامل (Agent) — شبیه کارمندی است که نه تنها حرف می‌زند، بلکه می‌تواند ابزارهای مختلف را برای انجام یک مأموریت مدیریت کند — اکنون نیاز دارد که رفتارش بر اساس استانداردهای خوانه‌شده توسط ماشین سنجیده شود. همان‌طور که در تحلیل‌های قبلی ما درباره‌ی امنیت مدل‌های بازمتن اشاره کردیم، شکاف بین توانایی مدل و کنترل‌پذیری آن، بزرگ‌ترین ریسک استقرار فعلی است. برای مقابله با این ریسک، راهکارهای متعددی نظیر رویکرد MoClaw برای جلوگیری از اقدامات مخرب و کاهش خطاهای تغییر هدف در عامل‌ها توسعه یافته‌اند.

طبق اعلام LuisCore در مستندات فنی این پروژه، این چارچوب بر انطباق با استاندارد DM-1 تمرکز دارد. هر سناریو، میدان‌های مانیفست مورد نیاز، انواع استنادات و محدودیت‌های سیاستی را تعریف می‌کند. برخی از سناریوهای کلیدی عبارتند از:

حذف داده‌های GDPR: پاک‌سازی اطلاعات شناسایی شخصی (PII) از ذخیره‌سازها، که نیازمند برچسب‌های veloraithVerdict و policyConstraints است.
ایمیل‌های خروجی: اطمینان از اینکه عامل‌ها حتماً پاو-تکس‌های (footers) انطباق قانونی را در ارتباط با مشتری قرار می‌دهند.
سیگنال‌های معاملاتی: انتشار سیگنال‌های جهت‌دار که باید شامل افشای ریسک‌های مشخص باشند.
استخدام کاندیداها: ارسال نامه‌های پیشنهاد شغلی تنها پس از تکمیل بررسی پیشینه.

به گزارش این شرکت، اپراتورها این مانیفست‌ها را از طریق dm-conformance.ts اجرا کرده و نتایج را در سامانه حسابرسی Veloraith ثبت می‌کنند. این روند تضمین می‌کند که خروجی عامل با وزن‌های پیش‌بینی‌شده سناریو مطابقت داشته باشد، نه با یک معیار داخلی و دلخواه.

این تغییر، گذاری از ایمنی کیفی به حاکمیت کمی است. با اجبار عامل‌ها به پیروی از مانیفست‌های تعریف‌شده با JSON، رفتار آن‌ها مانند یک زیرساخت قابل‌وریدی (Verifiable Infrastructure) دیده می‌شود. این رویکرد ریسک «شکست‌های خاموش» را کاهش می‌دهد؛ یعنی حالتی که عامل وظیفه را انجام می‌دهد اما یک سیاست حیاتی قانونی را نقض می‌کند.

برای توسعه‌دهندگان، ایمنی دیگر یک توضیح پس از حادثه نیست، بلکه پیش‌نیازی برای استقرار است. ادغام خط لوله عملیاتی Chorus نیز امکان اجرای موازی گمانه‌زنانه با شاخه‌های رتبه‌بندی‌شده بر اساس پاداش را فراهم می‌کند تا compliant‌ترین مسیر انتخاب شود.

گام بعدی شما

برای شروع پیاده‌سازی این حسابرسی‌ها در استک عامل‌های خود، فایل for-agents.json را بررسی کنید.
مجموعه‌داده GovernedBench را از طریق Zenodo (DOI: 10.5281/zenodo.14207466) دریافت کنید.
بررسی کنید کدام سناریوهای قانونی (مانند GDPR) در حال حاضر نقطه ضعف سیستم شما هستند.

اما چالش اصلی، تأمین سخت‌افزاری برای اجرای این لایه‌های نظارتی است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

حذف داده‌های GDPR: پاک‌سازی اطلاعات شناسایی شخصی (PII) از ذخیره‌سازها، که نیازمند برچسب‌های veloraithVerdict و policyConstraints است.
ایمیل‌های خروجی: اطمینان از اینکه عامل‌ها حتماً پاو-تکس‌های (footers) انطباق قانونی را در ارتباط با مشتری قرار می‌دهند.
سیگنال‌های معاملاتی: انتشار سیگنال‌های جهت‌دار که باید شامل افشای ریسک‌های مشخص باشند.
استخدام کاندیداها: ارسال نامه‌های پیشنهاد شغلی تنها پس از تکمیل بررسی پیشینه.

گام بعدی شما

برای شروع پیاده‌سازی این حسابرسی‌ها در استک عامل‌های خود، فایل for-agents.json را بررسی کنید.
مجموعه‌داده GovernedBench را از طریق Zenodo (DOI: 10.5281/zenodo.14207466) دریافت کنید.
بررسی کنید کدام سناریوهای قانونی (مانند GDPR) در حال حاضر نقطه ضعف سیستم شما هستند.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

«جایگزینی وعده‌های مبهم با بازپذیری»؛ رویکرد جدید LuisCore در حاکمیت AI

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

«جایگزینی وعده‌های مبهم با بازپذیری»؛ رویکرد جدید LuisCore در حاکمیت AI

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

«جایگزینی وعده‌های مبهم با بازپذیری»؛ رویکرد جدید LuisCore در حاکمیت AI

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

«جایگزینی وعده‌های مبهم با بازپذیری»؛ رویکرد جدید LuisCore در حاکمیت AI

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران