اگر هنوز برای اعتماد به یک مدل، تنها به جدولهای ردهبندی (Leaderboards) تکیه میکنید، در واقع در حال قمار روی امنیت سیستم خود هستید. تصور کنید مدلی را به دلیل امتیاز بالا در تستهای صداقت انتخاب میکنید، اما به محض ادغام آن در یک سیستم زنده، تمام آن لایههای حفاظتی فرو میریزند.
به نقل از مقالهای که در ۷ مه ۲۰۲۶ در وبسایت arxiv.org منتشر شد، همراستاسازی (Alignment) در سطح استقرار را نمیتوان صرفاً از طریق ارزیابیهای سطح مدل استنباط کرد. نویسندگان استدلال میکنند که ادعاهای مربوط به امنیت باید بر اساس سطح شواهد — اعم از مدل، پاسخ، تعامل یا استقرار — سنجیده شوند، نه یک امتیاز کلی و توخالی.
برای اثبات این ادعا، محققان دو مطالعهی کلیدی انجام دادند:
- ممیزی ساختاریافتهی مجموعهای از ۱۶ بنچمارک (Benchmark) شامل tau-bench، CURATe، Rifts و Common Ground؛ نتیجه این بود که پشتیبانی از تأییدیه در سطح کاربر در تمامی این بنچمارکها کاملاً غایب است.
- یک تست استرس کور (Blinded Stress Test) با استفاده از ۱۸۰ متن گفتگو در سه مدل پیشرو (Frontier Models) و چهار داربست امنیتی (Safety Scaffolds).
نتایج تکاندهنده بود: یک داربست تأییدیه خاص، عملکرد یک مدل را به سقف برد، در حالی که مدل دیگر را بهطور کلی بدون تغییر رها کرد. این یعنی اثربخشی یک لایهی امنیتی کاملاً به مدل وابسته است.
همانطور که در تحلیل قبلی ما دربارهی توهمات مدلهای زبانی اشاره کردیم، شکاف بین محیط آزمایشگاهی و دنیای واقعی همیشه یک تهدید پنهان بوده است. اکنون مشخص شد که این شکاف در لایههای امنیتی عمیقتر است.
طبق اعلام محققان، برای حل این بحران باید امتیازات تکعددی را با «پروفایلهای همراستاسازی» جایگزین کرد و پروتکلهای داربست ثابت را برای ارزیابی تعاملی به کار گرفت. با شتاب گرفتن توسعهی عاملهای (Agents) خودمختار، فشار برای عبور از بنچمارکهای ایستا به سمت ممیزیهای پویا و سیستمی افزایش خواهد یافت.
اما این شکاف تنها بخشی از یک بحران بزرگتر در ارزیابی مدلهای استدلالی است — به بررسی ما دربارهی مدلهای o1 مراجعه کنید.
گام بعدی شما
- به جای تکیه بر امتیازات کلی، برای هر مدل پیشرو یک «پروفایل همراستاسازی» اختصاصی تعریف کنید.
- لایههای امنیتی (Scaffolds) خود را بهطور مجزا برای هر مدل تست کنید و فرض نکنید یک لایه برای همه کار میکند.
- متدولوژی ارزیابی خود را از «پاسخ-محور» به «تعامل-محور» تغییر دهید.




گفتگو