اگر تصور میکنید یک پرامپت سیستمیِ ایمن، رفتار عامل هوش مصنوعی شما را در محیطهای واقعی تضمین میکند، در اشتباهید. واقعیت این است که وقتی یک مدل زبانی به یک «عامل» تبدیل میشود، مجموعهای از ارزشهای پنهان وارد بازی میشوند که هیچ ارتباطی با دستورات متنی شما ندارند.
این شکاف ارزشی دقیقاً همان جایی است که Agent-ValueBench وارد میشود. در حالی که صنعت تا امروز بر موفقیت در اجرای وظایف تمرکز کرده بود، ارزشهای «خاموشی» که این اقدامات را هدایت میکنند، نادیده گرفته شده بودند. همانطور که در تحلیلهای پیشین ما دربارهی مدلهای وزنباز اشاره کردیم، کنترل رفتار مدل در محیطهای پویا بسیار دشوارتر از محیطهای متنی است و این بنچمارک جدید، اولین تلاش جدی برای اندازهگیری این تضاد است.
طبق گزارش منتشر شده در ۱۲ مه ۲۰۲۶ در وبسایت arxiv.org، این چارچوب ارزیابی شامل موارد زیر است:
- ۳۹۴ محیط قابل اجرا در ۱۶ دامنه مختلف.
- ۴۳۳۵ وظیفهی تضاد-ارزشی که ۲۸ سیستم ارزشی و ۳۳۲ بُعد مختلف را پوشش میدهد.
- خط لولهی همسنتز (Co-synthesis) با نظارت روانشناسان حرفهای.
- داوری مبتنی بر رابریک (Rubric) که بر اساس «مسیرهای طلایی» (Golden Trajectories) تنظیم شده است.
به نقل از مستندات این پژوهش، محققان ۱۴ مدل تجاری و وزنهای باز (Open Weights) را در چهار هارنس (Harness) یا همان چارچوبهای اجرایی پیشرو (مانند OpenClaw) آزمایش کردند تا رفتار آنها را تحت فشار بسنجند.
یافتهی تکاندهنده این مطالعه، کشف پدیدهای به نام «جزر و مد ارزشی» (Value Tide) است. این پدیده نشان میدهد که هارنسِ مورد استفاده، تأثیری قدرتمند و غیرخطی بر ارزشهای عامل دارد؛ به گونهای که مدلهای مختلف وقتی در یک هارنس یکسان قرار میگیرند، رفتارهای مشابهی از خود نشان میدهند. برای متخصصان فنی، این یک چرخش پارادایم در همراستاسازی (Alignment) است: اهرم ایمنی دیگر فقط وزنهای مدل یا پرامپت نیست، بلکه معماری هارنس و مهارتهای جاسازیشده در آن است.
گام بعدی شما
- ارزیابی کنید که هارنسهای فعلی شما در محیطهای عملیاتی، چگونه ممکن است بهطور ناخواسته ارزشهای عامل را تغییر دهند.
- برای ممیزی جریانهای کاری عاملمحور خود، منتظر انتشار عمومی خط لولهی Agent-ValueBench باشید.
- تمرکز خود را از مهندسی پرامپت به سمت بهینهسازی معماری اجرایی (Harness Architecture) منتقل کنید.
اما هزینهی محاسباتی این همراستاسازی داستان دیگری دارد؛ به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو