اگر مدیر فنی هستید، احتمالاً برای هر تغییر کوچک کد، ۶.۵ برابر بیشتر پول پرداخت میکنید. این اتفاق زمانی میافتد که از GPT-5.4 برای اصلاحات خودکار استفاده کنید.
این مدل دچار «ویرایش بیشازحد» شده است. یعنی بخشهایی از کد را که نیاز به تغییر ندارند، بازنویسی میکند. نتیجهی نهایی بهتر نمیشود، اما حجم خروجی بهشدت بالا میرود.
مدل زبانی بزرگ (LLM) — مثل کتابخانهداری که میلیاردها صفحه را خوانده و حالا با همان لحن جواب میدهد — در اینجا دچار یک خطای رفتاری شده است. همانطور که در تحلیل قبلی ما دربارهی مدیریت عاملهای کدنویسی اشاره کردیم، دقت بالا لزوماً به معنای بهینگی نیست. برای یک برنامهنویس، این وضعیت شبیه استخدام پیمانکاری است که برای تعمیر یک شیر آب leaking، کل خانه را بازسازی میکند.
طبق دادههای منتشر شده در ۳ ژوئن ۲۰۲۶ در وبسایت dev.to، تفاوت این دو مدل تکاندهنده است:
- GPT-5.4 بهطور میانگین ۰.۳۹۵ واحد فاصله لِونشتاین (Levenshtein distance) در هر ویرایش دارد.
- Claude Opus 4.6 این عدد را تا ۰.۰۶۰ کاهش داده است.
- نکتهی کلیدی این است که دقت هر دو مدل در آزمون Pass@1 تقریباً یکسان است (بین ۰.۷۲۳ تا ۰.۹۱۲).
این اتلاف در مقیاس سازمانی تبدیل به یک بحران مالی میشود. به گزارش منابع فنی، یک سازمان با ۵۰ مهندس که ماهانه ۴۰ هزار ویرایش انجام میدهد، برای Opus 4.6 حدود ۳۰۰ دلار میپردازد. اما همین کار با GPT-5.4 حدود ۱,۹۵۰ دلار هزینه دارد. این ۱,۶۵۰ دلار تفاوت، صرفاً هزینه توکنهای اضافی است. ابزار LLMeter اکنون لایهی لازم برای ردیابی این هزینهها را فراهم کرده است.
این یعنی افزایش بودجهی استدلال در مدلها، لزوماً ویرایشهای دقیقتر ایجاد نمیکند. استنتاج (Inference) — لحظهای که مدل واقعاً جواب تولید میکند و شبیه خودِ آشپزی است، نه دورهی آموزش — در GPT-5.4 بیش از حد طولانی است. شما نمیتوانید با پرداخت پول بیشتر برای «تفکرِ» مدل، مشکل ویرایش بیشازحد را حل کنید.
گام بعدی شما
- در این ربع سال، اتلاف توکنهای خود را با ثبت Diffهای کامل و اجرای patch-min آفلاین بررسی کنید.
- از لایههای مسیریابی (Routing) برای هدایت کارهای ساده به مدلهایی با امتیاز ویرایش زیر ۰.۱ استفاده کنید.
- نسبت «ویرایش بیشازحد» را به عنوان یک شاخص کلیدی عملکرد (SLO) در تیم مهندسی تعریف کنید.
اما این اتلاف هزینه فقط در کدنویسی نیست؛ اثر این الگو بر مدلهای استدلالی جدید را در گزارش هفته آینده بررسی میکنیم.



گفتگو