اگر میخواهید همین حالا یک مدل زبانی قدرتمند را روی گوشی خود اجرا کنید، دیگر نیازی به گیگابایتها حافظه گرافیکی ندارید. گوگل مدل متنی Gemma 4 E2B را به شکلی فشرده کرد که با کمتر از ۱ گیگابایت حافظه (VRAM) فعال شود.
bیشتر مدلهای محلی با «دیوار حافظه» مواجه هستند؛ یعنی یا باعث هنگ کردن دستگاه میشوند یا آنقدر کند اجرا میشوند که کاربرد ندارند. برای حل این مشکل، گوگل در ۵ ژوئن ۲۰۲۶ نقاط بازبینی (Checkpoints) جدیدی را منتشر کرد. در این روش، فشردهسازی بهجای اینکه یک مرحلهی پس از پردازش باشد، مستقیماً وارد فاز آموزش مدل شده است.
مدل زبانی بزرگ (LLM) — مثل کتابخانهداری که میلیاردها صفحه را خوانده و حالا با همان لحن کتابها جواب میدهد — برای اجرا به فضای زیادی نیاز دارد. همانطور که در تحلیلهای پیشین ما دربارهی مدلهای زبانی کوچک (SLM) اشاره کردیم، بهینهسازی حافظه کلید اصلی پذیرش این ابزارها در لبهی شبکه است. طبق مستندات گوگل، روش آموزاش آگاه از کوانتایزیشن (Quantization-Aware Training یا QAT) — شبیه تبدیل یک عکس باکیفیت و حجیم به JPEG برای ارسال سریعتر، بدون از دست دادن جزئیات اصلی — دقت مدل را در فرمت Q4_0 حفظ میکند.
به نقل از وبلاگ گوگل، این بهینهسازی شامل چهار محور فنی است:
- فعالسازهای ایستا (Static Activations): پیشمحاسبه مقیاسها برای کاهش فشار روی تراشه.
- کوانتایزیشن کانالی (Channel-wise Quantization): ساختار دادهای متناسب با شتابدهندههای بومی موبایل.
- فشردهسازی هدفمند ۲-بیتی: اعمال فشار زیاد روی لایههای تولید توکن و حفظ دقت بالا در لایههای استدلالی.
- بهینهسازی KV Cache: کاهش ردپای حافظه برای دایره لغات و حافظهی کوتاهمدت مدل.

با حذف بردارهای معنایی (Embeddings) در هر لایه و تمرکز تنها بر حالت متنی، مدل Gemma 4 E2B اکنون زیر ۱ گیگابایت حافظه میطلبد. این تغییر یعنی توسعهدهندگان میتوانند استدلالهای پیچیده را بدون اجبار کاربر به استفاده از APIهای گرانقیمت ابری، در دل اپلیکیشنها جای دهند. در واقع استنتاج (Inference) — لحظهای که مدل واقعاً جواب تولید میکند، شبیه خودِ آشپزی و نه دورهی آموزش آشپز — اکنون مثل یک کتابخانه سبکوزن است، نه یک زیرساخت سنگین.
گام بعدی شما
- وزنهای این مدل را در فرمت GGUF از Hugging Face دانلود کنید.
- برای تست روی دسکتاپ یا موبایل، از ابزارهای Ollama یا LM Studio استفاده کنید.
- اگر توسعهدهنده هستید، کتابخانه llama.cpp را برای پیادهسازی محلی بررسی کنید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است؛ برای درک اینکه تراشههای جدید چگونه این فشار را تحمل میکنند، به تحلیل ما دربارهی پردازندههای Blackwell مراجعه کنید.

گفتگو