چگونه مدل Gemma 4 گوگل با کمتر از ۱ گیگابایت حافظه روی موبایل اجرا می‌شود؟

اگر قصد دارید مدل‌های زبانی بزرگ (LLM) را روی سخت‌افزارهای لبه (Edge Hardware) مستقر کنید، هزینهٔ حافظه برای شما به‌شدت کاهش یافت. در ۵ ژوئن ۲۰۲۶، گوگل چک‌پوینت‌های جدیدی برای Gemma 4 منتشر کرد که از روش آموزش‌آگاه از کوانتیزاسیون (Quantization-Aware Training یا QAT) استفاده می‌کند تا این مدل‌ها روی لپ‌تاپ‌های معمولی و دستگاه‌های موبایل به‌طور واقعی کاربردی شوند.

زمینه و تکامل

از زمان عرضه Gemma 4 در دو ماه پیش، گوگل بر گسترش قابلیت‌های این خانواده تمرکز کرده است. این مسیر با معرفی پیش‌بینی چند-توکنی (Multi-Token Prediction یا MTP) برای تسریع استنتاج آغاز شد. اخیراً یک مدل ۱۲ میلیارد پارامتری (12B) نیز عرضه شد تا شکاف عملکردی بین مدل‌های E4B و مدل‌های MOE با ۲۶ میلیارد پارامتر را پر کند.

اجرای مدل‌های بزرگ به‌صورت محلی معمولاً یعنی انتخاب بین سرعت یا هوشمندی. روش‌های رایج کوانتیزاسیون پس از آموزش (Post-Training Quantization یا PTQ) اغلب باعث تخریب عملکرد می‌شوند و باعث می‌شوند مدل‌ها پس از فشرده‌سازی «کودن‌تر» به نظر برسند. گوگل برای حل این مشکل، فرآیند کوانتیزاسیون را در خودِ زمان آموزش شبیه‌سازی کرده است تا مدل یاد بگیرد حتی در دقت‌های پایین، قدرت استدلال خود را حفظ کند.

طبق گزارش blog.google، این به‌روزرسانی بر دو مسیر اصلی تمرکز دارد: فرمت محبوب Q4_0 برای پردازنده‌های گرافیکی (GPU) مصرف‌کننده و یک طرح (Schema) جدید و تخصصی برای سخت‌افزارهای موبایل. در کوچک‌ترین مدل لبه یعنی Gemma 4 E2B، نسخهٔ فقط-متنی (بدون Embeddingهای هر لایه) اکنون به کمتر از ۱ گیگابایت حافظه نیاز دارد.

Approximate memory requirements indicating how much VRAM is required to load the models.

موتور بهینه‌سازی موبایل

برای رسیدن به این اثر انگشت حافظه (Footprint) بسیار کم، گوگل چندین بهینه‌سازی سخت‌افزاری را که به‌طور خاص برای سخت‌افزارهای لبه طراحی شده‌اند، مهندسی کرد:

فعال‌سازهای استاتیک (Static Activations): پیش‌محاسبه تنظیمات مقیاس‌بندی در زمان آموزش برای کاهش حجم کاری در لحظه روی تراشه‌های موبایل و سریع‌تر کردن پاسخ‌ها.
کوانتیزاسیون کانالی (Channel-wise Quantization): ساختاردهی داده‌ها برای سازگاری بومی با شتاب‌دهنده‌های موبایل، جهت حذف نیاز به راهکارهای نرم‌افزاری کند.
کوانتیزاسیون هدفمند ۲ بیتی: اعمال فشرده‌سازی شدید (۲ بیتی) به‌طور خاص روی بخش‌های تولید توکن، در حالی که لایه‌های هسته استدلال در دقت بالاتر نگه داشته شده‌اند تا حافظه ذخیره‌سازی بدون از دست دادن هوشمندی کاهش یابد.
بهینه‌سازی Embedding و KV Cache: فشرده‌سازی لیست واژگان و حافظه کوتاه‌مدت برای اجازه دادن به گفتگوهای طولانی‌تر بدون اتمام فضای حافظه.

جزئیات استقرار

توسعه‌دهندگان اکنون می‌توانند این وزن‌ها را در Hugging Face دریافت کنند. فرمت‌ها برای جریان‌های کاری خاص تنظیم شده‌اند: فرمت‌های GGUF برای llama.cpp آماده‌اند و تنسورهای فشرده برای vLLM ارائه شده‌اند. برای سایر نیازها، چک‌پوینت‌های کوانتیزه نشده برای تبدیل به فرمت‌های Q4_0 در دسترس هستند.

این انتشار همچنین از سرعت‌های حاصل از پیش‌بینی چند-توکنی (MTP) که در به‌روزرسانی‌های قبلی Gemma 4 معرفی شده بود، پشتیبانی می‌کند. کاربران می‌توانند از چک‌پوینت‌های MTP QAT استفاده کنند تا سرعت استنتاج را در حین کوانتیزه کردن مدل‌ها حفظ نمایند.

برای کاربر نهایی، این یعنی فاصله بین هوش مصنوعی «فقط-ابری» و هوش مصنوعی محلی در حال بسته شدن است. از آنجا که رمزگذارهای (Encoders) صوتی و بصری در هر مورد استفاده مورد نیاز نیستند، کاربران می‌توانند با استقرار تنها مودالیته‌های مورد نیاز خود، اثر انگشت حافظه را بازتر کنند.

این تغییر، صنعت را از تفکر «هرچه بزرگ‌تر، بهتر» به سمت رویکرد «دقت در جایی که لازم است» می‌برد. گوگل با کوانتیزه کردن انتخابی لایه‌های مختلف، ثابت می‌کند که یک مدل ۱ گیگابایتی همچنان می‌تواند کارهایی را انجام دهد که پیش از این به سخت‌افزارهای به‌مراتب قدرتمندتری نیاز داشت.

برای شروع، می‌توانید این مدل‌ها را از طریق Ollama، LM Studio یا محیط زمان اجرای LiteRT-LM گوگل برای استقرار روی دستگاه اجرا کنید. گزینه‌های دیگر شامل اجرای مدل‌ها در وب با Transformers.js، استفاده از SGLang یا vLLM برای مدل‌های بزرگ‌تر، یا بهینه‌سازی برای Apple Silicon با استفاده از MLX است. همچنین وزن‌ها را می‌توان با استفاده از Hugging Face Transformers و Unsloth بازتنظیم (Fine-tune) کرد.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

زمینه و تکامل

Approximate memory requirements indicating how much VRAM is required to load the models.

موتور بهینه‌سازی موبایل

فعال‌سازهای استاتیک (Static Activations): پیش‌محاسبه تنظیمات مقیاس‌بندی در زمان آموزش برای کاهش حجم کاری در لحظه روی تراشه‌های موبایل و سریع‌تر کردن پاسخ‌ها.
کوانتیزاسیون کانالی (Channel-wise Quantization): ساختاردهی داده‌ها برای سازگاری بومی با شتاب‌دهنده‌های موبایل، جهت حذف نیاز به راهکارهای نرم‌افزاری کند.
کوانتیزاسیون هدفمند ۲ بیتی: اعمال فشرده‌سازی شدید (۲ بیتی) به‌طور خاص روی بخش‌های تولید توکن، در حالی که لایه‌های هسته استدلال در دقت بالاتر نگه داشته شده‌اند تا حافظه ذخیره‌سازی بدون از دست دادن هوشمندی کاهش یابد.
بهینه‌سازی Embedding و KV Cache: فشرده‌سازی لیست واژگان و حافظه کوتاه‌مدت برای اجازه دادن به گفتگوهای طولانی‌تر بدون اتمام فضای حافظه.

جزئیات استقرار

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه مدل Gemma 4 گوگل با کمتر از ۱ گیگابایت حافظه روی موبایل اجرا می‌شود؟

زمینه و تکامل

موتور بهینه‌سازی موبایل

جزئیات استقرار

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه مدل Gemma 4 گوگل با کمتر از ۱ گیگابایت حافظه روی موبایل اجرا می‌شود؟

زمینه و تکامل

موتور بهینه‌سازی موبایل

جزئیات استقرار

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه مدل Gemma 4 گوگل با کمتر از ۱ گیگابایت حافظه روی موبایل اجرا می‌شود؟

زمینه و تکامل

موتور بهینه‌سازی موبایل

جزئیات استقرار

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه مدل Gemma 4 گوگل با کمتر از ۱ گیگابایت حافظه روی موبایل اجرا می‌شود؟

زمینه و تکامل

موتور بهینه‌سازی موبایل

جزئیات استقرار

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران