اگر میخواهید یک عامل هوش مصنوعی قدرتمند را روی لپتاپی با ۱۶ گیگابایت رم اجرا کنید، دیگر نیازی به پرداخت هزینهی اشتراکهای ابری ندارید. اکنون میتوانید مدلی را روی سختافزار شخصی خود میزبان شوید که بهطور بومی میبیند و میشنود.
گوگل دیپمایند (Google DeepMind) در تلاش است مرزهای رایانش لبه (Edge Computing) — یعنی پردازش دادهها در نزدیکی منبع تولید بهجای مراکز داده دوردست — را جابهجا کند تا وابستگی به ابر کاهش یابد. اکثر مدلهای چندوجهی (Multimodal) — مدلی که همزمان متن، عکس و صدا را میفهمد، مثل ما که با چند حس دنیا را میخوانیم — برای پردازش صدا و تصویر به سرورهای حجیم و لایههای ترجمهی پیچیده تکیه میکنند. این تحول، هوش عاملمحور در سطح حرفهای را به لپتاپهای معمولی میآورد.
همانطور که در تحلیلهای پیشین ما دربارهی مدلهای با وزنهای باز (Open Weights) اشاره کردیم، دسترسی به «دستور پخت» مدلها، سرعت نوآوری در لبه را افزایش میدهد. در ۳ ژوئن ۲۰۲۶، گوگل مدل Gemma 4 12B را تحت مجوز Apache 2.0 منتشر کرد. این مدل شکاف بین نسخهی فوقسبک E4B و مدل پیشرفتهی ۲۶B (با معماری Mixture of Experts) را پر میکند و نخستین مدل میانانداز این خانواده است که ورودیهای صوتی بومی را پشتیبانی میکند.

به نقل از وبلاگ گوگل، این مدل با حذف کامل انکودرهای چندوجهی به این هدف رسیده است. جزئیات فنی این تغییر عبارتاند از:
- بینایی: یک ماژول بردار معنایی (Embedding) سبک — مثل کارت معرفی عددی برای هر واژه که میگوید این کلمه همسایهی چه کلمات دیگری است — تنها با یک ضرب ماتریسی و نرمالسازی، پردازش را به هستهی مدل زبانی بزرگ (LLM) میسپارد. مدل زبانی بزرگ همانند کتابخانهداری است که میلیاردها صفحه را خوانده و حالا با همان لحن جواب میدهد.
- صدا: سیگنالهای خام صوتی مستقیماً به فضای ابعادی توکنهای متنی منتقل میشوند.
- تأخیر: استفاده از پیشبینیکنندههای چند-توکنی (MTP) باعث کاهش لگ در پاسخدهی شده است.

طبق ادعای گوگل، این مدل در عملکرد استدلالی به نسخهی ۲۶B نزدیک شده است، در حالی که تنها به ۱۶ گیگابایت حافظهی VRAM یا حافظه یکپارچه نیاز دارد تا فرآیند استنتاج (Inference) — لحظهای که مدل واقعاً جواب تولید میکند، مثل خودِ آشپزی و نه دورهی آموزش آشپز — را به سرعت انجام دهد.
این تغییر معماری، پیروزی بزرگی برای حریم خصوصی و کاهش هزینههاست. کسبوکارها اکنون میتوانند گردشهای کاری عاملمحور (Agentic) را بهصورت محلی اجرا کنند و دادههای حساس را به ابر ارسال نکنند. گوگل با حذف لایهی انکودر ثابت کرد که مدلها میتوانند بدون قربانی کردن قدرت استدلال در دادههای مختلف، سریع و سبک باقی بمانند.
گام بعدی شما
- اگر توسعهدهنده هستید، همین امروز مدل را از طریق LM Studio یا Ollama تست کنید.
- برای مشاهدهی نمونههای کاربردی، به Google AI Edge Gallery مراجعه کنید.
- بررسی کنید که آیا سختافزار شما از حافظه یکپارچه (Unified Memory) پشتیبانی میکند تا حداکثر سرعت استنتاج را بگیرید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است؛ به تحلیل ما دربارهی تأثیر تراشههای Blackwell بر اجرای مدلهای محلی مراجعه کنید.




گفتگو