مالیات ۶.۵ برابری توکن‌ها؛ چرا GPT-5.4 در اصلاح کد ناکارآمد است؟

اگر مدیر فنی هستید، احتمالاً برای هر تغییر کوچک کد، ۶.۵ برابر بیشتر پول پرداخت می‌کنید. این اتفاق زمانی می‌افتد که از GPT-5.4 برای اصلاحات خودکار استفاده کنید.

این مدل دچار «ویرایش بیش‌ازحد» شده است. یعنی بخش‌هایی از کد را که نیاز به تغییر ندارند، بازنویسی می‌کند. نتیجه‌ی نهایی بهتر نمی‌شود، اما حجم خروجی به‌شدت بالا می‌رود.

مدل زبانی بزرگ (LLM) — مثل کتابخانه‌داری که میلیاردها صفحه را خوانده و حالا با همان لحن جواب می‌دهد — در اینجا دچار یک خطای رفتاری شده است. همان‌طور که در تحلیل قبلی ما درباره‌ی مدیریت عامل‌های کدنویسی اشاره کردیم، دقت بالا لزوماً به معنای بهینگی نیست. برای یک برنامه‌نویس، این وضعیت شبیه استخدام پیمانکاری است که برای تعمیر یک شیر آب leaking، کل خانه را بازسازی می‌کند.

طبق داده‌های منتشر شده در ۳ ژوئن ۲۰۲۶ در وب‌سایت dev.to، تفاوت این دو مدل تکان‌دهنده است:

GPT-5.4 به‌طور میانگین ۰.۳۹۵ واحد فاصله لِونشتاین (Levenshtein distance) در هر ویرایش دارد.
Claude Opus 4.6 این عدد را تا ۰.۰۶۰ کاهش داده است.
نکته‌ی کلیدی این است که دقت هر دو مدل در آزمون Pass@1 تقریباً یکسان است (بین ۰.۷۲۳ تا ۰.۹۱۲).

این اتلاف در مقیاس سازمانی تبدیل به یک بحران مالی می‌شود. به گزارش منابع فنی، یک سازمان با ۵۰ مهندس که ماهانه ۴۰ هزار ویرایش انجام می‌دهد، برای Opus 4.6 حدود ۳۰۰ دلار می‌پردازد. اما همین کار با GPT-5.4 حدود ۱,۹۵۰ دلار هزینه دارد. این ۱,۶۵۰ دلار تفاوت، صرفاً هزینه توکن‌های اضافی است. ابزار LLMeter اکنون لایه‌ی لازم برای ردیابی این هزینه‌ها را فراهم کرده است.

این یعنی افزایش بودجه‌ی استدلال در مدل‌ها، لزوماً ویرایش‌های دقیق‌تر ایجاد نمی‌کند. استنتاج (Inference) — لحظه‌ای که مدل واقعاً جواب تولید می‌کند و شبیه خودِ آشپزی است، نه دوره‌ی آموزش — در GPT-5.4 بیش از حد طولانی است. شما نمی‌توانید با پرداخت پول بیشتر برای «تفکرِ» مدل، مشکل ویرایش بیش‌ازحد را حل کنید.

گام بعدی شما

در این ربع سال، اتلاف توکن‌های خود را با ثبت Diffهای کامل و اجرای patch-min آفلاین بررسی کنید.
از لایه‌های مسیریابی (Routing) برای هدایت کارهای ساده به مدل‌هایی با امتیاز ویرایش زیر ۰.۱ استفاده کنید.
نسبت «ویرایش بیش‌ازحد» را به عنوان یک شاخص کلیدی عملکرد (SLO) در تیم مهندسی تعریف کنید.

اما این اتلاف هزینه فقط در کدنویسی نیست؛ اثر این الگو بر مدل‌های استدلالی جدید را در گزارش هفته آینده بررسی می‌کنیم.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

طبق داده‌های منتشر شده در ۳ ژوئن ۲۰۲۶ در وب‌سایت dev.to، تفاوت این دو مدل تکان‌دهنده است:

GPT-5.4 به‌طور میانگین ۰.۳۹۵ واحد فاصله لِونشتاین (Levenshtein distance) در هر ویرایش دارد.
Claude Opus 4.6 این عدد را تا ۰.۰۶۰ کاهش داده است.
نکته‌ی کلیدی این است که دقت هر دو مدل در آزمون Pass@1 تقریباً یکسان است (بین ۰.۷۲۳ تا ۰.۹۱۲).

گام بعدی شما

در این ربع سال، اتلاف توکن‌های خود را با ثبت Diffهای کامل و اجرای patch-min آفلاین بررسی کنید.
از لایه‌های مسیریابی (Routing) برای هدایت کارهای ساده به مدل‌هایی با امتیاز ویرایش زیر ۰.۱ استفاده کنید.
نسبت «ویرایش بیش‌ازحد» را به عنوان یک شاخص کلیدی عملکرد (SLO) در تیم مهندسی تعریف کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مالیات ۶.۵ برابری توکن‌ها؛ چرا GPT-5.4 در اصلاح کد ناکارآمد است؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مالیات ۶.۵ برابری توکن‌ها؛ چرا GPT-5.4 در اصلاح کد ناکارآمد است؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مالیات ۶.۵ برابری توکن‌ها؛ چرا GPT-5.4 در اصلاح کد ناکارآمد است؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مالیات ۶.۵ برابری توکن‌ها؛ چرا GPT-5.4 در اصلاح کد ناکارآمد است؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران