اگر امروز یک عامل هوش مصنوعی را در شرکت خود فعال کنید، آیا مطمئنید که لیست حقوق کارکنان را برای همه نمیفرستد؟ برای اکثر مدیران، پاسخ فعلاً یک «تست حسی» ساده است که ریسکهای بزرگی را پنهان میکند.
دقیقاً همینجا است که نیاز به همراستاسازی (Alignment) — شبیه تنظیم کردن یک قطبنما برای اینکه مدل از مسیر تعیینشده خارج نشود — احساس میشود. همانطور که در تحلیل قبلی ما دربارهی سرعت استنتاج عاملهای محلی اشاره کردیم، حالا اولویت صنعت از «سرعت» به «قابلیت اطمینان» تغییر کرده است.
در ۲ ژوئن ۲۰۲۶، مایکروسافت ابزار ASSERT را به صورت بازمتن منتشر کرد. به گزارش TechCrunch، این چارچوب توصیفات متنی اهداف را به تستهای نمرهگذاریشده تبدیل میکند.

فرآیند ASSERT شامل این مراحل است:
- تبدیل سیاستهای متنی به مجموعهای از رفتارهای پذیرفتنی و غیرپذیرفتنی.
- تولید سناریوهای مشکل و موارد تست.
- اجرای تستها روی سیستم هدف و نمرهگذاری نتایج.
- ثبت مسیرهای اجرا، شامل هر بار استفاده از ابزار (Tool Use) و اقدامات میانی.
برای مثال، یک توسعهدهنده میتواند شرط بگذارد که عامل پژوهشی هرگز به خارج از شرکت ایمیل نزند. ASSERT سپس سناریوهایی میسازد تا این قانون را در طول زمان چک کند. سارا برد، مدیر ارشد محصول هوش مصنوعی مسئولانه در مایکروسافت، معتقد است سیستمهای قابلاطمینان نیازمند ارزیابی ابعاد تخصصی هر اپلیکیشن هستند.
این یعنی پایان دوران بنچمارکهای «یکسایز برای همه». با خودکارسازی پل ارتباطی بین سیاستنامه و تست فنی، مایکروسافت هزینه تست رگرسیون را کاهش میدهد. این تحول برای سازمانهایی که نمیتوانند ریسک «سرکش شدن» یک عامل را بپذیرند، حیاتی است.
گام بعدی شما
- اگر توسعهدهنده هستید، مستندات ASSERT را برای تعریف سیاستهای امنیتی بررسی کنید.
- مدلهای خود را با سناریوهای «بدترین حالت» به چالش بکشید.
- نحوه ادغام این ابزار با بنچمارکهای استاندارد مانند HELM را دنبال کنید.
اما بحث امنیت مدلها تنها نیمی از ماجراست؛ برای درک چالشهای دنیای مدلهای بازمتن، تحلیل ما دربارهی امنیت این مدلها را بخوانید.




گفتگو