اگر برای کارهای ساده از تنظیمات «بیشینه» (Max) استفاده میکنید، احتمالاً ۸ برابر بیشتر از آنچه باید، هزینه پرداخت میکنید بدون اینکه پاسخی بهتر بگیرید. این نقطهٔ اصطکاک، مرز جدیدی را در کنترلهای تفکر تطبیقی مدل Claude-opus-4-8 تعریف میکند، همانطور که در یک مطالعه بنچمارک در تاریخ ۳ جولای ۲۰۲۶ در وبسایت dev.to منتشر شد.
اکثر توسعهدهندگان به پیچک Effort به چشم یک اهرم ساده برای تبادل «هزینه در برابر کیفیت» نگاه میکنند. اما در واقعیت، این تنظیمات تعادل میان «اندیشیدن» و «عمل کردن» را مدیریت میکند. Effort کل میزان مصرف توکن را کنترل میکند: اینکه مدل چقدر فکر کند و چگونه عمل کند. در حالت Effort پایین، مدل خروجیهای کوتاهتر، پیشگفتارهای کمتر و فراخوانیهای ابزاری منسجمتری ارائه میدهد. در مقابل، تلاش بالاتر اجازه میدهد مدل پیش از پاسخ دادن، مسیرهای بیشتری را بررسی و کاوش کند. برای یک متخصص مدیریت جریانهای کاری هوش مصنوعی، این بدان معناست که انتخاب یک تنظیم پیشفرض جهانی برای تمام درخواستها، تقریباً همیشه اشتباه است. این رویکرد بهینهسازی در راستای استراتژیهای گستردهتری مانند توکنمینینگ برای کاهش هزینههای استنتاج قرار دارد که هدف آن حذف توکنهای زائد بدون کاهش کیفیت است.
درک پیچک Effort
این تنظیمات پنج سطح متمایز دارد: low، medium، high، xhigh و max. در صورتی که این مقدار در کد تعریف نشود، مقدار پیشفرض روی high قرار میگیرد. یک نمونه پیادهسازی به این شکل است:
const response = await client.messages.create({ model: "claude-opus-4-8", max_tokens: 16000, thinking: { type: "adaptive" }, output_config: { effort: "medium" }, messages, });
متدولوژی محک
پژوهشگران برای ترسیم این رابطه، سه نوع تکلیف نماینده را در هر پنج سطح و در سه نوبت تکرار کردند تا میانگین نتایج بهدست آید:
- طبقهبندی (Classification): برچسبگذاری یک یافته در قرارداد به عنوان کمریسک، متوسط، زیاد یا بحرانی. این یک تکلیف کوتاه و محدود است.
- تولید کد: نوشتن یک تابع TypeScript که شامل مدیریت حالتهای خاص (Edge-case) باشد. این تکلیف در سطح دشواری متوسط است. این چالشها یادآور دشواری مدیریت تغییرات پیچیده در مدلهای کوچکتر است که در آن مدلها گاهی در مواجهه با کدهای پیچیده دچار شکست میشوند.
- بازرسی چندمرحلهای: تحلیل یک قرارداد ۲۰۰ سطری برای یافتن آسیبپذیریها در توابع مختلف. این یک تکلیف سخت و عاملمحور (Agentic) است.
در طبقهبندی ساده، کیفیت در تمامی سطوح ثابت بود؛ برچسب درست، همان برچسب درست است و مدل در حالت low همانقدر دقیق بود که در حالت max. اما هزینهها با افزایش Effort بهشدت بالا رفت. در تولید کد، کیفیت از low تا high بهبود یافت و سپس به یک سطح plateau (پایدار) رسید. در حالی که حالت low گاهی حالتهای خاص را نادیده میگرفت، حالت high آنها را شکار کرد؛ اما حالتهای xhigh و max عملاً همان کد را تولید کردند، ولی توکنهای بیشتری را برای رسیدن به آن مصرف کردند.
پارادوکس عاملها
بر اساس مستندات گزارش dev.to، خیرهکنندهترین یافته در بازرسی قراردادهای ۲۰۰ سطری رخ داد: مجموع توکنهای مصرفشده در حالت xhigh در واقع کمتر از حالت medium بود.
- تلاش متوسط (Medium): مدل در هر گام کمتر جستوجو کرد، بنابراین نوبتهای بیشتری را طی کرد، به بنبستهای بیشتری خورد و مجبور شد اطلاعات را دوباره استخراج و استدلال کند.
- تلاش بسیار بالا (Xhigh): مدل در ابتدا برنامهریزی بهتری کرد و در مراحل کمتری به جواب نهایی رسید. تلاش بیشتر در هر گام، منجر به کاهش تعداد کل گامهای مورد نیاز شد.
این یافته تایید میکند چرا Anthropic ابزارهای کدنویسی عاملمحور خود را روی xhigh تنظیم کرده است. موضوع فقط ارتقای کیفیت نیست؛ در کارهای عاملمحور، xhigh اغلب ارزانتر است چون برنامهریزی بهتر، حلقهٔ گرانقیمت «اجرا-خطا-اصلاح» را کاهش میدهد. این تخصص در برنامهریزی عمیق، برتری کلود در مدیریت مخازن کد پیچیده را در مقایسه با رقبایش توجیه میکند. رابطه بین تلاش و هزینه، وقتی یک حلقه بازخوردی در میان باشد، دیگر یک رابطه یکنواخت (Monotonic) نیست.
استراتژی پیشنهادی برای Effort
برای پشته تولیدی (Production Stack) خود، به جای استفاده از پیشفرض جهانی، یک استراتژی بر اساس هر نقطه فراخوانی اعمال کنید:
- Low: برای طبقهبندی، مسیریابی (Routing) و استخراج داده استفاده کنید. کیفیت در اینجا ثابت است اما توکنها مقیاس میگیرند، پس دلیلی ندارد برای موارد بیشتر هزینه کنید.
- High: برای تولید تکشات کد یا محتوا استفاده کنید. کیفیت در این سطح به ثبات میرسد و هر مقداری بالاتر از این، هدررفت منابع است.
- Xhigh: برای حلقههای عاملمحور و بازرسیهای چندمرحلهای استفاده کنید. این تنظیم برنامهریزی بهتر و تعداد مراحل کمتر را فراهم میکند.
- Max: تنها زمانی استفاده کنید که هزینه یک پاسخ اشتباه، بیشتر از هزینه توکنها باشد؛ یعنی جایی که صحت مطلق، همهچیز است.
حدس زدن تنظیمات Effort را متوقف کنید. سه تکلیف اصلی خود را انتخاب کنید، آنها را در پنج سطح اجرا کنید و یکبار میزان توکنها را در برابر خروجی کیفیت اندازه بگیرید تا از هدررفت دائمی منابع جلوگیری کنید. تست کردن این پیچک ارزان است، اما رها کردن آن روی تنظیم اشتباه، بسیار گران تمام میشود.
اما تأثیر این مدلهای استدلالی بر معماری حافظه در سیستمهای عاملمحور حتی پیچیدهتر است — به بررسی ما درباره پروتکل MCP مراجعه کنید.




گفتگو