«جایگزینی متن با تصویر»؛ راهبرد pxpipe برای بهینه‌سازی توکن‌ها

اگر برای توسعه نرم‌افزار از Claude Code استفاده می‌کنید، احتمالاً می‌دانید که صورت‌حساب API شما با هر بار خواندن فایل‌های حجیم، به‌سرعت بالا می‌رود. ابزار pxpipe اکنون راهی برای کاهش این هزینه‌ها تا ۷۰٪ فراهم کرده است.

این ابزار که در ۳ جولای ۲۰۲۶ منتشر شد، روی شکاف اقتصادی میان توکن‌های متنی و بصری دست گذاشته است؛ جایی که هزینه یک تصویر فارغ از اینکه چقدر متن در آن فشرده شده باشد، ثابت می‌ماند.

برای اکثر توسعه‌دهندگان، پنجرهٔ زمینه (Context Window) — مثل میز کاری که جا برای چند ورق کاغذ دارد، نه برای کل کتابخانه — میدانی برای نبرد میان جزئیات و هزینه است. هرچه عامل‌ها تاریخچه بیشتری را دنبال کنند یا فایل‌های بزرگ‌تری بخوانند، تعداد توکن‌ها منفجر می‌شود و منجر به صورت‌حساب‌های سنگین یا «فشرده‌سازی اجباری» می‌شود که در آن مدل بخش‌های ابتدایی گفتگو را فراموش می‌کند. همان‌طور که در تحلیل‌های قبلی ما درباره‌ی بهینه‌سازی هزینه‌های استنتاج اشاره کردیم، صنعت تاکنون عمدتاً برای رفع این مشکل به حافظه پنهان پرامپت (Prompt Caching) تکیه کرده است، اما هزینه توکن‌های جدید یا تغییر یافته همچنان یک گلوگاه است. پیش از این نیز راهکارهای متفاوتی برای مدیریت حجم داده‌ها مطرح شده بود، مانند ابزار CodeGraph که با استفاده از گراف‌های دانش توانست مصرف توکن عامل‌های کدنویس را ۶۴٪ کاهش دهد، اما رویکرد pxpipe بر تغییر ماهیت داده‌ها تمرکز دارد.

pxpipe به عنوان یک پراکسی محلی عمل می‌کند که درخواست‌ها را پیش از خروج از دستگاه شما می‌روبد. این ابزار بخش‌های «حجیم» درخواست — به‌ویژه پرامپت سیستمی (System Prompt)، مستندات ابزارها و تاریخچه قدیمی گفتگو — را شناسایی کرده و آن‌ها را به تصاویر PNG فشرده تبدیل می‌کند. طبق مستندات این پروژه در گیت‌هاب، چون محتوای متراکم مثل JSON در هر توکن تصویری حدود ۳.۱ کاراکتر جای می‌گیرد (در حالی که در توکن متنی فقط ۱ کاراکتر جای می‌گیرد)، میزان صرفه‌جویی بسیار چشم‌گیر است.

سازوکار فشرده‌سازی

به نقل از مستندات گیت‌هاب، این ابزار از یک خط لوله (Pipeline) خاص برای اطمینان از قابلیت خواندن متن توسط مدل استفاده می‌کند:

قالب‌بندی: فاصله‌های خالی حذف شده و متن در ردیف‌های کامل بازچینی می‌شود.
نشانه‌های بصری: خطوط جدید اصلی با یک نماد خاص (↵) علامت‌گذاری می‌شوند.
دستورالعمل: هر تصویر شامل یک بنر دستورالعمل نویسه‌خوانی نوری (OCR) — شبیه به عینک مخصوصی که به مدل کمک می‌کند حروف ریز را تشخیص دهد — است که در بالای تصویر رندر شده است.
گیت دینامیک: یک سامانه نظارتی داخلی تضمین می‌کند که فقط محتوایی به تصویر تبدیل شود که از نظر ریاضی به‌صرفه است؛ متون ساده انگلیسی برای جلوگیری از کاهش دقت، به صورت متن باقی می‌مانند.

در یک نمونه اندازه‌گیری شده، pxpipe توانست حدود ۲۵,۰۰۰ توکن متنی را تنها به ۲,۷۶۰ توکن تصویری تبدیل کند. برای یک مجموعه درخواست معمولی، این یعنی کاهش ۵۹ تا ۷۰ درصدی هزینه‌ها و در موارد شدید، این عدد تا ۷۴٪ افزایش می‌یابد.

بنچمارک‌ها و عملکرد مدل

این ابزار به‌طور ویژه برای مدل Fable 5 تنظیم شده و در ارزیابی‌های حسابی جدید، امتیاز ۱۰۰ از ۱۰۰ را کسب کرده است. در یک دمو رویارویی، این مدل با استفاده از pxpipe توانست توکن‌های موجود در ۳۹ فایل متنی فشرده شده را به‌درستی بشمارد و محاسبات دفتر کل (از ۸۰۳۷ تا ۱۵,۰۲۱) را با همان دقتی که در نسخه متن ساده داشت، اما با یک‌هفتم هزینه انجام دهد.

بر اساس گزارش‌های آزمایشی روی نسخه پایلوت SWE-bench Lite، مدل در هر دو حالت «روشن» و «خاموش» بودن ابزار، ۱۰ مورد از ۱۰ مسئله را حل کرد. نکته اینجاست که هزینه حالت «روشن» ۲۷ دلار در مقابل ۵۴ دلار برای نسخه متنی بود. در مجموعه دشوارتر SWE-bench Pro، ۱۴ مورد از ۱۹ تکلیف با تصویرسازی حل شد، در حالی که بدون آن ۱۵ مورد حل شدند؛ این افت جزئی احتمالاً به دلیل واریانس (Variance) طبیعی عامل‌هاست و نه نقص در فشرده‌سازی.

با این حال، این ابزار بدون ریسک نیست. سازنده pxpipe صراحتاً هشدار داده است که این روش «با تلفات» (Lossy) است. در یک ارزیابی «سوزن در انبار کاه» شامل رشته‌های هگز ۱۲ کاراکتری، مدل Fable 5 توانست ۱۳ مورد از ۱۵ مورد را بیابد، اما مدل Opus 4.8 هیچ‌کدام را شناسایی نکرد. حالت شکست در اینجا «توهم» (Hallucination) — مثل دوستی که خاطره‌ای را اشتباه تعریف می‌کند اما با اطمینان کامل می‌گوید — است؛ یعنی مدل به‌جای اعلام خطا، یک مقدار محتمل اما نادرست ارائه می‌دهد.

یکپارچه‌سازی و گردش کار

برای کاربران Claude Code، راه‌اندازی بسیار ساده است. کاربران پراکسی را از طریق دستور npx pxpipe-proxy اجرا کرده و ANTHROPIC_BASE_URL خود را به پورت محلی تغییر می‌دهند. یک داشبورد زنده نیز آمار لحظه‌ای توکن‌های ذخیره شده و تبدیل‌های متن‌به‌تصویر را نمایش می‌دهد.

برای کاهش اثر تلفتی تصاویر، pxpipe یک «دریچه خروج برای بازخوانی دقیق» را پیاده کرده است. این ابزار فقط درخواست‌های مدل‌های خاص (مثل claude-fable-e5) را به تصویر تبدیل می‌کند. با هدایت کارهای حساس به داده‌های دقیق — مثل شناسه‌ها (ID) یا هش‌ها — به مدل‌هایی غیر از Fable (مثلاً claude-sonnet-4-6)، توسعه‌دهندگان می‌توانند دقت داده‌های حیاتی را تضمین کرده و در عین حال در حجم اصلی زمینه صرفه‌جویی کنند.

معماری فنی

موتور این ابزار برای سازگاری با Node و Edge-workers به‌صورت خالص با جاوااسکریپت نوشته شده است. این سیستم از فرمت تصویری ۱۹۲۸ در ۱۹۲۸ پیکسل استفاده می‌کند که تقریباً ۴,۷۶۱ توکن بینایی هزینه دارد اما می‌تواند تا ۹۲,۰۰۰ کاراکتر را در خود جای دهد. این یعنی هرگاه تراکم متن پایین‌تر از ۱۹ کاراکتر به ازای هر توکن باشد، مسیر تصویری ارزان‌تر است؛ آستانه‌ای که اکثر ترانسکریپت‌های Claude Code با میانگین ۱.۹۱ کاراکتر به راحتی از آن عبور می‌کنند.

این تغییر در نحوه تحویل زمینه، اثراتی فراتر از هزینه دارد. توسعه‌دهندگان فرض می‌کنند که با کوچک کردن متن «فعال» که مدل باید بخواند و در عین حال در دسترس نگه داشتن اطلاعات از طریق تصاویر، شاید بتوان دقت در کارهای طولانی را افزایش داد و تخریب استدلال را که معمولاً با پر شدن پنجره‌های زمینه رخ می‌دهد، کاهش داد.

این رویکرد فرض بنیادین مبنی بر اینکه متن بهینه‌ترین راه تغذیه مدل است را به چالش می‌کشد. اگر یک مدل بتواند یک کدبیس را ارزان‌تر از «خواندن»، «ببیند»، پنجره یک میلیون توکنی به‌ناگهان اطلاعات واقعی بسیار بیشتری را در خود جای می‌دهد. برای کیف پول کاربر، این یعنی تبدیل یک گردش کار عامل‌محور گران‌قیمت به یک فرآیند تولید پایدار.

گام بعدی شما

اگر از مدل‌های سری Claude استفاده می‌کنید، ابزار pxpipe را برای تست در پروژه‌های غیرحساس نصب کنید تا میزان کاهش هزینه توکن‌های خود را بسنجید.
برای داده‌های حساس (مثل Hash و API Key)، حتماً از مدل‌های Sonnet استفاده کنید تا دچار توهمات ناشی از فشرده‌سازی تصویری نشوید.
بررسی کنید که آیا مستندات ابزارهایتان (Tool Docs) بیش از حد حجیم هستند؟ این اولین جایی است که باید به تصاویر منتقل شوند.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است؛ اثر این روش بر مصرف VRAM و سرعت استنتاج را در گزارش بعدی بررسی خواهیم کرد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.