GPT-4o LATENCY240msCLAUDE OPUS 4.7ONLINENVDA+1.2%MISTRAL LARGE 2STREAMINGOPENAI API99.97% UPTIMEGROQ MIXTRAL580 tok/sGEMINI 2.5 PROCTX 2MANTHROPIC STATUSOKTSMC+0.4%PERPLEXITYINDEXINGGPT-4o LATENCY240msCLAUDE OPUS 4.7ONLINENVDA+1.2%MISTRAL LARGE 2STREAMINGOPENAI API99.97% UPTIMEGROQ MIXTRAL580 tok/sGEMINI 2.5 PROCTX 2MANTHROPIC STATUSOKTSMC+0.4%PERPLEXITYINDEXING
پرش به محتوای مقاله

درون ASSERT: تلاش مایکروسافت برای تبدیل قوانین اداری به کد تست هوش مصنوعی

·۱۳ خرداد ۱۴۰۵۳ دقیقه مطالعه
ابزار جدید مایکروسافت: تست رفتار هوش مصنوعی با توضیحات متنی
ابزار جدید مایکروسافت: تست رفتار هوش مصنوعی با توضیحات متنی
اشتراک‌گذاری
واقعاً چه چیز جدید است؟

خودکارسازی تبدیل «سیاست‌های متنی» به «تست‌های فنی»؛ به جای اینکه انسان تست‌ها را دستی بنویسد، خودِ هوش مصنوعی قوانین اداری را به سناریوهای تست تبدیل می‌کند.

اگر امروز یک عامل هوش مصنوعی را در شرکت خود فعال کنید، آیا مطمئنید که لیست حقوق کارکنان را برای همه نمی‌فرستد؟ برای اکثر مدیران، پاسخ فعلاً یک «تست حسی» ساده است که ریسک‌های بزرگی را پنهان می‌کند.

دقیقاً همین‌جا است که نیاز به همراستاسازی (Alignment) — شبیه تنظیم کردن یک قطب‌نما برای اینکه مدل از مسیر تعیین‌شده خارج نشود — احساس می‌شود. همان‌طور که در تحلیل قبلی ما درباره‌ی سرعت استنتاج عامل‌های محلی اشاره کردیم، حالا اولویت صنعت از «سرعت» به «قابلیت اطمینان» تغییر کرده است.

در ۲ ژوئن ۲۰۲۶، مایکروسافت ابزار ASSERT را به صورت بازمتن منتشر کرد. به گزارش TechCrunch، این چارچوب توصیفات متنی اهداف را به تست‌های نمره‌گذاری‌شده تبدیل می‌کند.

ابزار جدید مایکروسافت: تست رفتار هوش مصنوعی با توضیحات متنی

فرآیند ASSERT شامل این مراحل است:

  • تبدیل سیاست‌های متنی به مجموعه‌ای از رفتارهای پذیرفتنی و غیرپذیرفتنی.
  • تولید سناریوهای مشکل و موارد تست.
  • اجرای تست‌ها روی سیستم هدف و نمره‌گذاری نتایج.
  • ثبت مسیرهای اجرا، شامل هر بار استفاده از ابزار (Tool Use) و اقدامات میانی.

برای مثال، یک توسعه‌دهنده می‌تواند شرط بگذارد که عامل پژوهشی هرگز به خارج از شرکت ایمیل نزند. ASSERT سپس سناریوهایی می‌سازد تا این قانون را در طول زمان چک کند. سارا برد، مدیر ارشد محصول هوش مصنوعی مسئولانه در مایکروسافت، معتقد است سیستم‌های قابل‌اطمینان نیازمند ارزیابی ابعاد تخصصی هر اپلیکیشن هستند.

این یعنی پایان دوران بنچمارک‌های «یک‌سایز برای همه». با خودکارسازی پل ارتباطی بین سیاست‌نامه و تست فنی، مایکروسافت هزینه تست رگرسیون را کاهش می‌دهد. این تحول برای سازمان‌هایی که نمی‌توانند ریسک «سرکش شدن» یک عامل را بپذیرند، حیاتی است.

گام بعدی شما

  • اگر توسعه‌دهنده هستید، مستندات ASSERT را برای تعریف سیاست‌های امنیتی بررسی کنید.
  • مدل‌های خود را با سناریوهای «بدترین حالت» به چالش بکشید.
  • نحوه ادغام این ابزار با بنچمارک‌های استاندارد مانند HELM را دنبال کنید.

اما بحث امنیت مدل‌ها تنها نیمی از ماجراست؛ برای درک چالش‌های دنیای مدل‌های بازمتن، تحلیل ما درباره‌ی امنیت این مدل‌ها را بخوانید.

چرا این موضوع مهم است؟

این ابزار با تکیه بر تخصص مایکروسافت در حوزه AI مسئولانه، ریسک‌های شهرتی سازمان‌ها را کاهش می‌دهد. حالا شرکت‌ها می‌توانند به جای حدس زدن، از اعداد و نتایج دقیق برای تأیید امنیت عامل‌های خود استفاده کنند.

تأثیر برای ایران

این ابزار به دلیل بازمتن بودن، برای توسعه‌دهندگان ایرانی که عامل‌های سازمانی می‌سازند کاملاً در دسترس است. آن‌ها می‌توانند بدون نیاز به APIهای پولی، استانداردهای امنیتی مایکروسافت را در پروژه‌های داخلی پیاده کنند.

·نگاه ما
تحریریه دات‌هوش

تحلیل ما نشان می‌دهد که مایکروسافت در حال انتقال از ارزیابی‌های کلی به سمت ارزیابی‌های «زمینه-محور» است. این یک چرخش استراتژیک است؛ چراکه در محیط‌های سازمانی، اشتباه در رعایت یک قانون داخلی، بسیار هزینه‌برتر از ضعف در حل یک مسئله ریاضی است.

منابع

گفتگو

شماره ۰۵۳پنج‌شنبه‌های هوش‌محور

بسته‌ی هفتگی دات‌هوش

۵ خبر، ۲ ابزار، ۱ پرامپت — به‌علاوه ۳ بخش جدید. بدون هیاهو، هر پنج‌شنبه صبح.

خبر کلیدی
ابزار کاربردی
پرامپت حرفه‌ای
تحلیل پژوهش
به‌زودی
زاویه‌ی ایرانی
به‌زودی
تمرین این هفته
به‌زودی
۰۰:۰۰تا شماره بعدیهفته‌ی ۵۳ بدون وقفه