پایان عصر پیش‌بینی‌پذیری در Opus 4.7؛ وقتی Anthropic بی‌صدا کدها را می‌شکند

آیا می‌توانید تضمین کنید که عامل هوشمند شما فردا دقیقاً همان رفتاری را دارد که امروز دارد؟ برای توسعه‌دهندگانی که روی Anthropic حساب کرده‌اند، پاسخ یک «نه» قاطع است.

به نقل از گزارش منتشرشده در dev.to، یک توسعه‌دهنده کشف کرد که تزریق یک پرامپت سیستمی ۵۶ کلمه‌ای در مدل Opus 4.7 باعث شده تا زیر-عامل‌ها (Sub-agents) به‌طور مطلق از بهبود یا تقویت کدها خودداری کنند. طبق این گزارش، عبارت «شما باید از بهبود یا تقویت کد خودداری کنید» منجر به نرخ شکست ۴۰ تا ۶۰ درصدی در درخواست‌های ویرایش موازی شده است. این اختلال ابتدا در نسخه v2.1.92 ظاهر شد و تا نسخه v2.1.111 ادامه یافت؛ یعنی ۱۹ نسخه متوالی بدون حتی یک هشدار تغییر (Deprecation Warning).

این یک اتفاق تصادفی نیست. بر اساس بررسی منابع متعدد، در شش ماه گذشته الگویی از پس‌رفت‌های نامرئی (Invisible Regressions) مشاهده شده است:

۱۸ آوریل ۲۰۲۶: تغییر در بخش <acting_vs_clarifying> باعث شد عامل‌ها به‌جای پرسیدن سوالات شفاف‌کننده، بلافاصله اقدام کنند و گیت‌های تأیید ضمنی توسعه‌دهندگان را دور بزنند.
آوریل ۲۰۲۶: یک به‌روزرسانی در توکن‌ساز (Tokenizer) هزینه‌های پرامپت را ۱.۴۶ برابر افزایش داد، در حالی که شرکت ادعا کرده بود این افزایش بین ۱.۰ تا ۱.۳۵ خواهد بود.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی ناپایداری مدل‌های زبانی بزرگ اشاره کردیم، مشکل ساختاری اینجاست که هیچ لیست تغییرات (Changelog) نسخه‌بندی‌شده‌ای برای سیاست‌های مدل وجود ندارد. چون این تغییرات در لایه‌ی مدل رخ می‌دهند، خطای HTTP تولید نمی‌کنند؛ چارچوب ارکستراسیون همچنان پاسخ دریافت می‌کند، اما رفتار عامل (Agent) تغییر کرده است.

برای مقابله با این وضعیت، تیم‌های فنی باید از نظارت زیرساختی به سمت نظارت رفتاری (Behavioral Monitoring) حرکت کنند. با ردیابی امتیازات سازگاری، نرخ تکمیل وظایف و توالی‌های استفاده از ابزار (Tool Use)، می‌توان تشخیص داد که چه زمانی یک عامل از خط مبنای خود فاصله می‌گیرد.

اما این نوسانات رفتاری تنها بخشی از یک معماری بزرگ‌تر است؛ برای درک اثر این تغییرات بر هزینه‌های عملیاتی، تحلیل ما درباره‌ی توکن‌سازهای جدید را بخوانید.

گام بعدی شما

پیاده‌سازی تست‌های رگرسیون رفتاری برای هر تغییر نسخه در مدل‌های عامل‌محور (Agentic).
ردیابی نرخ «خودداری از پاسخ» (Refusal Rate) به عنوان یک متریک کلیدی در داشبورد مانیتورینگ.
بررسی دوره‌ای خروجی‌های مدل با استفاده از یک مدل ارزیاب (Judge Model) برای شناسایی تغییرات پنهان.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

۱۸ آوریل ۲۰۲۶: تغییر در بخش <acting_vs_clarifying> باعث شد عامل‌ها به‌جای پرسیدن سوالات شفاف‌کننده، بلافاصله اقدام کنند و گیت‌های تأیید ضمنی توسعه‌دهندگان را دور بزنند.
آوریل ۲۰۲۶: یک به‌روزرسانی در توکن‌ساز (Tokenizer) هزینه‌های پرامپت را ۱.۴۶ برابر افزایش داد، در حالی که شرکت ادعا کرده بود این افزایش بین ۱.۰ تا ۱.۳۵ خواهد بود.

گام بعدی شما

پیاده‌سازی تست‌های رگرسیون رفتاری برای هر تغییر نسخه در مدل‌های عامل‌محور (Agentic).
ردیابی نرخ «خودداری از پاسخ» (Refusal Rate) به عنوان یک متریک کلیدی در داشبورد مانیتورینگ.
بررسی دوره‌ای خروجی‌های مدل با استفاده از یک مدل ارزیاب (Judge Model) برای شناسایی تغییرات پنهان.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پایان عصر پیش‌بینی‌پذیری در Opus 4.7؛ وقتی Anthropic بی‌صدا کدها را می‌شکند

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پایان عصر پیش‌بینی‌پذیری در Opus 4.7؛ وقتی Anthropic بی‌صدا کدها را می‌شکند

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پایان عصر پیش‌بینی‌پذیری در Opus 4.7؛ وقتی Anthropic بی‌صدا کدها را می‌شکند

گام بعدی شما

مقاله‌های مرتبطهمه ←

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پایان عصر پیش‌بینی‌پذیری در Opus 4.7؛ وقتی Anthropic بی‌صدا کدها را می‌شکند

گام بعدی شما

مقاله‌های مرتبطهمه ←

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران