اگر امروز برای استقرار مدلهای زبانی در مقیاس بالا هزینه میپردازید، صورتحساب ابری شما میتواند ۶۵٪ کاهش یابد. ابزار جدیدی به نام SuperCompress وارد میدان شده است تا توکنهای اضافی را پیش از آنکه به گرانترین لایههای محاسباتی برسند، حذف کند.
به نقل از گزارش وبسایت dev.to در ۲۶ ژوئن ۲۰۲۶، این سازوکار اثرگذاری مستقیمی بر کاهش هزینههای سختافزاری دارد. همانطور که در تحلیلهای قبلی ما دربارهی هزینههای محیطی مراکز داده اشاره کردیم، صنعت هوش مصنوعی با چالش مصرف انرژی افسارگین دستوپنجه نرم میکند. SuperCompress دقیقاً روی این نقطه دست میگذارد؛ یعنی حذف «نویزها» و کلمات تکراری پیش از آنکه مدل زبانی بزرگ (LLM) — شبیه کتابخانهداری که میلیاردها صفحه را خوانده و حالا با همان لحن کتابها جواب میدهد — شروع به پردازش آنها کند. این رویکرد مکمل استراتژیهای پیشرفتهتری مانند توکنمینینگ برای کاهش شدید هزینههای استنتاج است که پیشتر بررسی کرده بودیم.
بر اساس مستندات فنی، SuperCompress از یک خط لوله چهارمرحلهای استفاده میکند:
- یک سیاست مبتنی بر CPU با تنها ۵ هزار پارامتر، بستر متن و پرسش را تحلیل میکند.
- هر خط از نظر میزان ارتباط با موضوع امتیاز میگیرد.
- خطوط با امتیاز پایین حذف میشوند.
- تنها توکنهای حیاتی برای استنتاج (Inference) — همان لحظهای که مدل واقعاً جواب تولید میکند، شبیه خودِ آشپزی و نه دورهی آموزش آشپز — به GPU ارسال میشوند.
این مدل توزیع پردازش، یادآور مزایای معماریهای ترکیبی CPU-GPU است که بهرهوری سختافزاری را در مدلهای پیچیده بهینه میکنند.
آمارها تکاندهنده است. این ابزار با بودجهای معادل ۳۵٪، به بازخوانی ۱۰۰ درصدی (Recall) دست مییابد که بهطور چشمگیر از نرخ ۲۵ درصدی روشهای سادهی کوتاه کردن متن (Truncation) بالاتر است. همچنین ۶۵٪ از حافظه KV Cache ذخیره شده و تأخیر CPU تنها ۶۰ میلیثانیه است. این یعنی به ازای هر یک میلیون فشردهسازی، ۸۰۰ میلیون توکن حذف شده که منجر به صرفهجویی در ۲۹ کیلووات ساعت انرژی و کاهش ۱۲ کیلوگرم CO₂ میشود.
برای توسعهدهندگان، این به معنای آن است که عاملهای (Agents) هوش مصنوعی میتوانند بدون افزایش خطی هزینهها مقیاسپذیر شوند. در واقع گلوگاه سیستم از «قدرت خام سختافزاری» به «پیشپردازش هوشمند» تغییر میکند.
کتابخانه SuperCompress با مجوز MIT در گیتهاب در دسترس است و میتوان آن را با OpenAI یا LangChain ادغام کرد.
گام بعدی شما
- اگر از LangChain استفاده میکنید، دمو supercompress.vercel.app را برای تست نرخ کاهش توکنها بررسی کنید.
- مقدار حافظه KV Cache را در پروژههای فعلی خود اندازه بگیرید تا پتانسیل صرفهجویی را تخمین بزنید.
- لایهی فیلترینگ CPU را پیش از ارسال درخواست به APIهای گرانقیمت پیادهسازی کنید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است؛ اثرات حذف توکنها بر سرعت پاسخدهی مدلهای لبه را در گزارش بعدی بررسی خواهیم کرد.




گفتگو