SuperCompress هزینه استنتاج مدل‌های زبانی را ۶۵٪ کاهش داد

اگر امروز برای استقرار مدل‌های زبانی در مقیاس بالا هزینه می‌پردازید، صورت‌حساب ابری شما می‌تواند ۶۵٪ کاهش یابد. ابزار جدیدی به نام SuperCompress وارد میدان شده است تا توکن‌های اضافی را پیش از آنکه به گران‌ترین لایه‌های محاسباتی برسند، حذف کند.

به نقل از گزارش وب‌سایت dev.to در ۲۶ ژوئن ۲۰۲۶، این سازوکار اثرگذاری مستقیمی بر کاهش هزینه‌های سخت‌افزاری دارد. همان‌طور که در تحلیل‌های قبلی ما درباره‌ی هزینه‌های محیطی مراکز داده اشاره کردیم، صنعت هوش مصنوعی با چالش مصرف انرژی افسارگین دست‌وپنجه نرم می‌کند. SuperCompress دقیقاً روی این نقطه دست می‌گذارد؛ یعنی حذف «نویزها» و کلمات تکراری پیش از آنکه مدل زبانی بزرگ (LLM) — شبیه کتابخانه‌داری که میلیاردها صفحه را خوانده و حالا با همان لحن کتاب‌ها جواب می‌دهد — شروع به پردازش آن‌ها کند. این رویکرد مکمل استراتژی‌های پیشرفته‌تری مانند توکن‌مینینگ برای کاهش شدید هزینه‌های استنتاج است که پیش‌تر بررسی کرده بودیم.

بر اساس مستندات فنی، SuperCompress از یک خط لوله چهارمرحله‌ای استفاده می‌کند:

یک سیاست مبتنی بر CPU با تنها ۵ هزار پارامتر، بستر متن و پرسش را تحلیل می‌کند.
هر خط از نظر میزان ارتباط با موضوع امتیاز می‌گیرد.
خطوط با امتیاز پایین حذف می‌شوند.
تنها توکن‌های حیاتی برای استنتاج (Inference) — همان لحظه‌ای که مدل واقعاً جواب تولید می‌کند، شبیه خودِ آشپزی و نه دوره‌ی آموزش آشپز — به GPU ارسال می‌شوند.

این مدل توزیع پردازش، یادآور مزایای معماری‌های ترکیبی CPU-GPU است که بهره‌وری سخت‌افزاری را در مدل‌های پیچیده بهینه می‌کنند.

آمارها تکان‌دهنده است. این ابزار با بودجه‌ای معادل ۳۵٪، به بازخوانی ۱۰۰ درصدی (Recall) دست می‌یابد که به‌طور چشمگیر از نرخ ۲۵ درصدی روش‌های ساده‌ی کوتاه کردن متن (Truncation) بالاتر است. همچنین ۶۵٪ از حافظه KV Cache ذخیره شده و تأخیر CPU تنها ۶۰ میلی‌ثانیه است. این یعنی به ازای هر یک میلیون فشرده‌سازی، ۸۰۰ میلیون توکن حذف شده که منجر به صرفه‌جویی در ۲۹ کیلووات ساعت انرژی و کاهش ۱۲ کیلوگرم CO₂ می‌شود.

برای توسعه‌دهندگان، این به معنای آن است که عامل‌های (Agents) هوش مصنوعی می‌توانند بدون افزایش خطی هزینه‌ها مقیاس‌پذیر شوند. در واقع گلوگاه سیستم از «قدرت خام سخت‌افزاری» به «پیش‌پردازش هوشمند» تغییر می‌کند.

کتابخانه SuperCompress با مجوز MIT در گیت‌هاب در دسترس است و می‌توان آن را با OpenAI یا LangChain ادغام کرد.

گام بعدی شما

اگر از LangChain استفاده می‌کنید، دمو supercompress.vercel.app را برای تست نرخ کاهش توکن‌ها بررسی کنید.
مقدار حافظه KV Cache را در پروژه‌های فعلی خود اندازه بگیرید تا پتانسیل صرفه‌جویی را تخمین بزنید.
لایه‌ی فیلترینگ CPU را پیش از ارسال درخواست به APIهای گران‌قیمت پیاده‌سازی کنید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است؛ اثرات حذف توکن‌ها بر سرعت پاسخ‌دهی مدل‌های لبه را در گزارش بعدی بررسی خواهیم کرد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

بر اساس مستندات فنی، SuperCompress از یک خط لوله چهارمرحله‌ای استفاده می‌کند:

یک سیاست مبتنی بر CPU با تنها ۵ هزار پارامتر، بستر متن و پرسش را تحلیل می‌کند.
هر خط از نظر میزان ارتباط با موضوع امتیاز می‌گیرد.
خطوط با امتیاز پایین حذف می‌شوند.
تنها توکن‌های حیاتی برای استنتاج (Inference) — همان لحظه‌ای که مدل واقعاً جواب تولید می‌کند، شبیه خودِ آشپزی و نه دوره‌ی آموزش آشپز — به GPU ارسال می‌شوند.

کتابخانه SuperCompress با مجوز MIT در گیت‌هاب در دسترس است و می‌توان آن را با OpenAI یا LangChain ادغام کرد.

گام بعدی شما

اگر از LangChain استفاده می‌کنید، دمو supercompress.vercel.app را برای تست نرخ کاهش توکن‌ها بررسی کنید.
مقدار حافظه KV Cache را در پروژه‌های فعلی خود اندازه بگیرید تا پتانسیل صرفه‌جویی را تخمین بزنید.
لایه‌ی فیلترینگ CPU را پیش از ارسال درخواست به APIهای گران‌قیمت پیاده‌سازی کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

SuperCompress هزینه استنتاج مدل‌های زبانی را ۶۵٪ کاهش داد

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

SuperCompress هزینه استنتاج مدل‌های زبانی را ۶۵٪ کاهش داد

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

SuperCompress هزینه استنتاج مدل‌های زبانی را ۶۵٪ کاهش داد

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

SuperCompress هزینه استنتاج مدل‌های زبانی را ۶۵٪ کاهش داد

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران