آیا میتوانید تضمین کنید که عامل هوشمند شما فردا دقیقاً همان رفتاری را دارد که امروز دارد؟ برای توسعهدهندگانی که روی Anthropic حساب کردهاند، پاسخ یک «نه» قاطع است.
به نقل از گزارش منتشرشده در dev.to، یک توسعهدهنده کشف کرد که تزریق یک پرامپت سیستمی ۵۶ کلمهای در مدل Opus 4.7 باعث شده تا زیر-عاملها (Sub-agents) بهطور مطلق از بهبود یا تقویت کدها خودداری کنند. طبق این گزارش، عبارت «شما باید از بهبود یا تقویت کد خودداری کنید» منجر به نرخ شکست ۴۰ تا ۶۰ درصدی در درخواستهای ویرایش موازی شده است. این اختلال ابتدا در نسخه v2.1.92 ظاهر شد و تا نسخه v2.1.111 ادامه یافت؛ یعنی ۱۹ نسخه متوالی بدون حتی یک هشدار تغییر (Deprecation Warning).
این یک اتفاق تصادفی نیست. بر اساس بررسی منابع متعدد، در شش ماه گذشته الگویی از پسرفتهای نامرئی (Invisible Regressions) مشاهده شده است:
- ۱۸ آوریل ۲۰۲۶: تغییر در بخش
<acting_vs_clarifying>باعث شد عاملها بهجای پرسیدن سوالات شفافکننده، بلافاصله اقدام کنند و گیتهای تأیید ضمنی توسعهدهندگان را دور بزنند. - آوریل ۲۰۲۶: یک بهروزرسانی در توکنساز (Tokenizer) هزینههای پرامپت را ۱.۴۶ برابر افزایش داد، در حالی که شرکت ادعا کرده بود این افزایش بین ۱.۰ تا ۱.۳۵ خواهد بود.
همانطور که در تحلیلهای پیشین ما دربارهی ناپایداری مدلهای زبانی بزرگ اشاره کردیم، مشکل ساختاری اینجاست که هیچ لیست تغییرات (Changelog) نسخهبندیشدهای برای سیاستهای مدل وجود ندارد. چون این تغییرات در لایهی مدل رخ میدهند، خطای HTTP تولید نمیکنند؛ چارچوب ارکستراسیون همچنان پاسخ دریافت میکند، اما رفتار عامل (Agent) تغییر کرده است.
برای مقابله با این وضعیت، تیمهای فنی باید از نظارت زیرساختی به سمت نظارت رفتاری (Behavioral Monitoring) حرکت کنند. با ردیابی امتیازات سازگاری، نرخ تکمیل وظایف و توالیهای استفاده از ابزار (Tool Use)، میتوان تشخیص داد که چه زمانی یک عامل از خط مبنای خود فاصله میگیرد.
اما این نوسانات رفتاری تنها بخشی از یک معماری بزرگتر است؛ برای درک اثر این تغییرات بر هزینههای عملیاتی، تحلیل ما دربارهی توکنسازهای جدید را بخوانید.
گام بعدی شما
- پیادهسازی تستهای رگرسیون رفتاری برای هر تغییر نسخه در مدلهای عاملمحور (Agentic).
- ردیابی نرخ «خودداری از پاسخ» (Refusal Rate) به عنوان یک متریک کلیدی در داشبورد مانیتورینگ.
- بررسی دورهای خروجیهای مدل با استفاده از یک مدل ارزیاب (Judge Model) برای شناسایی تغییرات پنهان.




گفتگو