اگر برای توسعه نرمافزار از Claude Code استفاده میکنید، احتمالاً میدانید که صورتحساب API شما با هر بار خواندن فایلهای حجیم، بهسرعت بالا میرود. ابزار pxpipe اکنون راهی برای کاهش این هزینهها تا ۷۰٪ فراهم کرده است.
این ابزار که در ۳ جولای ۲۰۲۶ منتشر شد، روی شکاف اقتصادی میان توکنهای متنی و بصری دست گذاشته است؛ جایی که هزینه یک تصویر فارغ از اینکه چقدر متن در آن فشرده شده باشد، ثابت میماند.
برای اکثر توسعهدهندگان، پنجرهٔ زمینه (Context Window) — مثل میز کاری که جا برای چند ورق کاغذ دارد، نه برای کل کتابخانه — میدانی برای نبرد میان جزئیات و هزینه است. هرچه عاملها تاریخچه بیشتری را دنبال کنند یا فایلهای بزرگتری بخوانند، تعداد توکنها منفجر میشود و منجر به صورتحسابهای سنگین یا «فشردهسازی اجباری» میشود که در آن مدل بخشهای ابتدایی گفتگو را فراموش میکند. همانطور که در تحلیلهای قبلی ما دربارهی بهینهسازی هزینههای استنتاج اشاره کردیم، صنعت تاکنون عمدتاً برای رفع این مشکل به حافظه پنهان پرامپت (Prompt Caching) تکیه کرده است، اما هزینه توکنهای جدید یا تغییر یافته همچنان یک گلوگاه است. پیش از این نیز راهکارهای متفاوتی برای مدیریت حجم دادهها مطرح شده بود، مانند ابزار CodeGraph که با استفاده از گرافهای دانش توانست مصرف توکن عاملهای کدنویس را ۶۴٪ کاهش دهد، اما رویکرد pxpipe بر تغییر ماهیت دادهها تمرکز دارد.
pxpipe به عنوان یک پراکسی محلی عمل میکند که درخواستها را پیش از خروج از دستگاه شما میروبد. این ابزار بخشهای «حجیم» درخواست — بهویژه پرامپت سیستمی (System Prompt)، مستندات ابزارها و تاریخچه قدیمی گفتگو — را شناسایی کرده و آنها را به تصاویر PNG فشرده تبدیل میکند. طبق مستندات این پروژه در گیتهاب، چون محتوای متراکم مثل JSON در هر توکن تصویری حدود ۳.۱ کاراکتر جای میگیرد (در حالی که در توکن متنی فقط ۱ کاراکتر جای میگیرد)، میزان صرفهجویی بسیار چشمگیر است.
سازوکار فشردهسازی
به نقل از مستندات گیتهاب، این ابزار از یک خط لوله (Pipeline) خاص برای اطمینان از قابلیت خواندن متن توسط مدل استفاده میکند:
- قالببندی: فاصلههای خالی حذف شده و متن در ردیفهای کامل بازچینی میشود.
- نشانههای بصری: خطوط جدید اصلی با یک نماد خاص (↵) علامتگذاری میشوند.
- دستورالعمل: هر تصویر شامل یک بنر دستورالعمل نویسهخوانی نوری (OCR) — شبیه به عینک مخصوصی که به مدل کمک میکند حروف ریز را تشخیص دهد — است که در بالای تصویر رندر شده است.
- گیت دینامیک: یک سامانه نظارتی داخلی تضمین میکند که فقط محتوایی به تصویر تبدیل شود که از نظر ریاضی بهصرفه است؛ متون ساده انگلیسی برای جلوگیری از کاهش دقت، به صورت متن باقی میمانند.
در یک نمونه اندازهگیری شده، pxpipe توانست حدود ۲۵,۰۰۰ توکن متنی را تنها به ۲,۷۶۰ توکن تصویری تبدیل کند. برای یک مجموعه درخواست معمولی، این یعنی کاهش ۵۹ تا ۷۰ درصدی هزینهها و در موارد شدید، این عدد تا ۷۴٪ افزایش مییابد.
بنچمارکها و عملکرد مدل
این ابزار بهطور ویژه برای مدل Fable 5 تنظیم شده و در ارزیابیهای حسابی جدید، امتیاز ۱۰۰ از ۱۰۰ را کسب کرده است. در یک دمو رویارویی، این مدل با استفاده از pxpipe توانست توکنهای موجود در ۳۹ فایل متنی فشرده شده را بهدرستی بشمارد و محاسبات دفتر کل (از ۸۰۳۷ تا ۱۵,۰۲۱) را با همان دقتی که در نسخه متن ساده داشت، اما با یکهفتم هزینه انجام دهد.
بر اساس گزارشهای آزمایشی روی نسخه پایلوت SWE-bench Lite، مدل در هر دو حالت «روشن» و «خاموش» بودن ابزار، ۱۰ مورد از ۱۰ مسئله را حل کرد. نکته اینجاست که هزینه حالت «روشن» ۲۷ دلار در مقابل ۵۴ دلار برای نسخه متنی بود. در مجموعه دشوارتر SWE-bench Pro، ۱۴ مورد از ۱۹ تکلیف با تصویرسازی حل شد، در حالی که بدون آن ۱۵ مورد حل شدند؛ این افت جزئی احتمالاً به دلیل واریانس (Variance) طبیعی عاملهاست و نه نقص در فشردهسازی.
با این حال، این ابزار بدون ریسک نیست. سازنده pxpipe صراحتاً هشدار داده است که این روش «با تلفات» (Lossy) است. در یک ارزیابی «سوزن در انبار کاه» شامل رشتههای هگز ۱۲ کاراکتری، مدل Fable 5 توانست ۱۳ مورد از ۱۵ مورد را بیابد، اما مدل Opus 4.8 هیچکدام را شناسایی نکرد. حالت شکست در اینجا «توهم» (Hallucination) — مثل دوستی که خاطرهای را اشتباه تعریف میکند اما با اطمینان کامل میگوید — است؛ یعنی مدل بهجای اعلام خطا، یک مقدار محتمل اما نادرست ارائه میدهد.
یکپارچهسازی و گردش کار
برای کاربران Claude Code، راهاندازی بسیار ساده است. کاربران پراکسی را از طریق دستور npx pxpipe-proxy اجرا کرده و ANTHROPIC_BASE_URL خود را به پورت محلی تغییر میدهند. یک داشبورد زنده نیز آمار لحظهای توکنهای ذخیره شده و تبدیلهای متنبهتصویر را نمایش میدهد.
برای کاهش اثر تلفتی تصاویر، pxpipe یک «دریچه خروج برای بازخوانی دقیق» را پیاده کرده است. این ابزار فقط درخواستهای مدلهای خاص (مثل claude-fable-e5) را به تصویر تبدیل میکند. با هدایت کارهای حساس به دادههای دقیق — مثل شناسهها (ID) یا هشها — به مدلهایی غیر از Fable (مثلاً claude-sonnet-4-6)، توسعهدهندگان میتوانند دقت دادههای حیاتی را تضمین کرده و در عین حال در حجم اصلی زمینه صرفهجویی کنند.
معماری فنی
موتور این ابزار برای سازگاری با Node و Edge-workers بهصورت خالص با جاوااسکریپت نوشته شده است. این سیستم از فرمت تصویری ۱۹۲۸ در ۱۹۲۸ پیکسل استفاده میکند که تقریباً ۴,۷۶۱ توکن بینایی هزینه دارد اما میتواند تا ۹۲,۰۰۰ کاراکتر را در خود جای دهد. این یعنی هرگاه تراکم متن پایینتر از ۱۹ کاراکتر به ازای هر توکن باشد، مسیر تصویری ارزانتر است؛ آستانهای که اکثر ترانسکریپتهای Claude Code با میانگین ۱.۹۱ کاراکتر به راحتی از آن عبور میکنند.
این تغییر در نحوه تحویل زمینه، اثراتی فراتر از هزینه دارد. توسعهدهندگان فرض میکنند که با کوچک کردن متن «فعال» که مدل باید بخواند و در عین حال در دسترس نگه داشتن اطلاعات از طریق تصاویر، شاید بتوان دقت در کارهای طولانی را افزایش داد و تخریب استدلال را که معمولاً با پر شدن پنجرههای زمینه رخ میدهد، کاهش داد.
این رویکرد فرض بنیادین مبنی بر اینکه متن بهینهترین راه تغذیه مدل است را به چالش میکشد. اگر یک مدل بتواند یک کدبیس را ارزانتر از «خواندن»، «ببیند»، پنجره یک میلیون توکنی بهناگهان اطلاعات واقعی بسیار بیشتری را در خود جای میدهد. برای کیف پول کاربر، این یعنی تبدیل یک گردش کار عاملمحور گرانقیمت به یک فرآیند تولید پایدار.
گام بعدی شما
- اگر از مدلهای سری Claude استفاده میکنید، ابزار pxpipe را برای تست در پروژههای غیرحساس نصب کنید تا میزان کاهش هزینه توکنهای خود را بسنجید.
- برای دادههای حساس (مثل Hash و API Key)، حتماً از مدلهای Sonnet استفاده کنید تا دچار توهمات ناشی از فشردهسازی تصویری نشوید.
- بررسی کنید که آیا مستندات ابزارهایتان (Tool Docs) بیش از حد حجیم هستند؟ این اولین جایی است که باید به تصاویر منتقل شوند.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است؛ اثر این روش بر مصرف VRAM و سرعت استنتاج را در گزارش بعدی بررسی خواهیم کرد.




گفتگو