اگر از عاملهای کدنویسی هوش مصنوعی استفاده میکنید، احتمالاً هر جلسه چندین بار هزینه ارسال فایلهای تکراری به مدل را میپردازید. در ۱۷ ژوئن ۲۰۲۶، توسعهدهندهای به نام agiwhitelist ابزار tokdiet را منتشر کرد؛ یک پروکسی معکوس محلی که مصرف توکنهای ورودی را ۷۱٪ کاهش میدهد بدون اینکه عامل را «کودزد» یا کندتر کند.
بسیاری از حلقههای پردازشی در سیستمهای عاملمحور دچار رشد یکنواخت متن میشوند؛ یعنی خروجیهای قدیمی ابزارها حتی زمانی که دیگر کاربرد ندارند، در حافظه باقی میمانند. همانطور که در تحلیلهای قبلی ما درباره مدیریت حافظه در مدلهای زبانی اشاره کردیم، روشهای رایجی مثل خلاصهسازی میانه-گفتگو وجود دارند، اما این روشها باعث حذف جزئیات حیاتی مثل شماره خطوط یا کدهای خطا میشوند. tokdiet این مشکل را با مدیریت حافظه شبیه به حافظه مجازی در کامپیوترها حل میکند. این رویکرد در راستای تغییر پارادایم از تکیه بر مدلهای واحد به سمت زیرساختهای بهینهتر است، چرا که وابستگی صرف به یک مدل واحد در زیرساختهای هوش مصنوعی میتواند به یک ریسک تجاری تبدیل شود.
طبق گزارش وبسایت dev.to، این ابزار برای کاهش هزینهها از دو مکانیزم اصلی استفاده میکند:
- Dedup: یک لایه حذف تکرار که فقط تازهترین نسخه از بلوکهای تکراری را نگه میدارد.
- Elision: فرآیندی که بخشهای حجیم نتایج قدیمی را به یک پایگاهداده SQLite محلی منتقل میکند و تنها خطوط کلیدی مثل شناسهها و URLها را در دسترس نگه میدارد.
برای اثبات این ادعا، نویسنده یک بنچمارک A/B شامل ۶۶ تکلیف را روی مدل MiniMax-M3 اجرا کرد. بر اساس مستندات این پروژه، در ۱۹۸ اجرای جفتشده، حالت عادی برای حل ۶۴ تکلیف به ۵.۰۷ میلیون توکن (Tkn) — تکههای کوچکی از متن که مدل تکهتکه میخورد — نیاز داشت، در حالی که حالت بهینهشده تنها با ۱.۴۶ میلیون توکن، ۶۳ تکلیف را حل کرد. این تفاوت بسیار کم در موفقیت، در محدوده نویز مدل است و با کاهش ۷۲ درصدی در مدل MiniMax-M2.5 نیز تأیید شد.
برای کیف پول شما، این یعنی کاهش شدید هزینهها برای کسانی که از APIهای شرکتهای Anthropic، OpenAI یا Gemini استفاده میکنند. اگرچه اشتراکهای ماهانه ثابت تغییری در صورتحساب ایجاد نمیکنند، اما این پروکسی یک داشبورد زنده روی پورت ۷۸۷۸ برای نظارت بر هزینهها فراهم میکند. همچنین یک «بودجه کیفیت» دارد که اگر انحراف مدل از حالت عادی زیاد شود، فشردهسازی تهاجمی را متوقف میکند.
گام بعدی شما
- با اجرای دستور
npx tokdiet startپروکسی را فعال کنید. - ترافیک عامل خود را به URLهای محلی ارجاع دهید تا مصرف توکنها را رصد کنید.
- تنظیمات «بودجه کیفیت» را بر اساس حساسیت پروژه خود تغییر دهید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما درباره بهینهسازیهای KV Cache در مدلهای جدید مراجعه کنید.




گفتگو