تصور کنید یک مکبوک معمولی با ۱۶ گیگابایت رم، بتواند مدلی را اجرا کند که پیش از این فقط در خوشههای گرافیکی ۲۵۰ هزار دلاری جای داشت. این دیگر یک رؤیای مهندسی نیست، بلکه نتیجهی رویکردی است که مرزهای سختافزاری را جابهجا میکند.
به نقل از گزارش dev.to، در ۲۵ ژوئن ۲۰۲۶، توسعهدهندهای به نام لوکا ویسچیولا (Luca Visciola) موتور استنتاجِ S-MoE (مخفف Seismic Mixture of Experts) را بهصورت متنباز منتشر کرد. این ابزار که با زبان C++ نوشته شده، این ادعای صنعت را که مدلهای پیشرو حتماً به حافظه یکپارچه (Unified Memory) عظیم نیاز دارند، به چالش میکشد. طبق مستندات این پروژه، سیستم اجازه میدهد یک لپتاپ مصرفکننده به تمام عمق استدلالی مدلهای غولپیکر دسترسی داشته باشد، به شرطی که کاربر حاضر باشد سرعت تولید توکن پایینتر را بپذیرد.
برای درک این دستاورد، باید با مفهوم «دیوار حافظه» آشنا شویم. برای سالها، دیوار حافظه دیکته کرده است که برای اجرای محلی یک مدل، باید تمام مجموعه وزنهای آن مدل در رم قرار بگیرد. برای اجرای مدل Qwen3-235B، برای مثال، استانداردهای فعلی در دقت bfloat16 حدود ۴۷۰ گیگابایت حافظه میطلبند. در حالی که اکثر مکهای خانگی تنها با ۱۶ تا ۴۸ گیگابایت رم عرضه میشوند و حتی مدلهای پیشرفته Mac Studio هم به طور معمول در محدوده ۱۹۲ گیگابایت متوقف میشوند. همین محدودیت باعث شده تا افراد عادی برای دسترسی به مدلهای وزنهای باز (Open Weights) — که انگار دستور پخت مدل علناً منتشر شده و نه فقط غذای آماده — مجبور به اجاره سرویسهای ابری گرانقیمت باشند.
همانطور که در تحلیلهای پیشین ما دربارهی بهینهسازیهای لایهی حافظه اشاره کردیم، راهکار ویسچیولا بر روی ماهیت مدلهای ترکیبی خبرهها (Mixture of Experts یا MoE) تمرکز دارد. این معماری، چشمانداز بهرهبرداری از مدلها را تغییر میدهد و نشان میدهد که چگونه بهینهسازی لایهی مسیریابی میتواند جایگزین مزیتهای سختافزاری محض شود و ریسکهای وابستگی به زیرساختهای متمرکز را کاهش دهد. در این معماری، بیش از ۹۵ درصد از آن ۲۳۵ میلیارد پارامتر در هر میلیثانیه کاملاً خاموش و غیرفعال هستند. برای مثال، وقتی توکنی درباره فلسفه تولید میشود، «خبرههای ریاضی» هرگز فعال نمیشوند؛ و برای توکنی درباره کدنویسی، «خبرههای شعر» هرگز فراخوانی نمیشوند. در حالی که رانتایمهای استاندارد همه وزنها را «برای اطمینان» در رم نگه میدارند، S-MoE از SSD به عنوان حافظه اصلی استفاده میکند و فقط خبرههای مورد نیاز را دقیقاً لحظاتی قبل از فعال شدن، بارگذاری میکند.
عجیبترین بخش این دستاورد، الهام گرفتن از باستانشناسی ماهوارهای است. ویسچیولا یک مدل ذهنی را از تحقیقات سال ۲۰۲۲ فیلیپو بیوندی (Ing. Filippo Biondi) در مجله Remote Sensing استخراج کرد؛ پژوهشی با عنوان «توموگرافی داپلر رادار دهانه مصنوعی، جزئیات ساختار داخلی کشفنشده و با رزولوشن بالای هرم بزرگ جیزه را آشکار میکند».
کار بیوندی بر روی یک مانع فیزیکی بنیادین متمرکز بود: امواج الکترومغناطیسی (EM) نمیتوانند در سنگ نفوذ کنند. بیوندی به جای مبارزه با این محدودیت، از ماهوارههای SAR استفاده کرد تا نمای بیرونی هرم را با پالسهای راداری مایکروویو تاب irradiated کند. این پالسها باعث ایجاد فونونهای آکوستیک (لرزشهای مکانیکی صدا) میشوند که در طول سنگ منتشر میگردند.
او با اندازهگیری جابهجاییهای سطحی در مقیاس زیر-نانومتر از طریق تکنیک داپلر و تبدیلهای فوریه، تصاویر توموگرافی سهبعدی از فضای داخلی هرم را که بر روی یک صفحه دوبعدی تصویر شده بود، ثبت کرد. سازوکار این سیستم به شرح زیر بود:
- ماهواره SAR: یک پالس مایکروویو ارسال میکند (که قادر به نفوذ در سنگ نیست).
- سطح هرم: ضربه پالس EM باعث تولید فونونها در سنگ میشود.
- داخل هرم: فونونها منتشر میشوند و هندسه داخلی، جبهه موج را تغییر میدهد.
- سطح: سنگ در سطح زیر-نانومتری دچار لرزشهای ریز میشود.
- تشخیص: تغییر داپلر در سیگنال بازگشتی SAR، این جابهجایی را کدگذاری میکند.
- پردازش: یک تبدیل فوریه در سراسر دهانه مصنوعی، تصویر نهایی را میسازد.
ویسچیولا این مفهوم «اندازهگیری لرزش برای دیدن درون» را به یک استراتژی مدیریت حافظه تبدیل کرد. او به جای تلاش برای جا دادن کل «سنگ» (مدل ۲۳۵ میلیارد پارامتری) در رم، «لرزشها» (سیگنالهای مسیریابی) را اندازه میگیرد تا پیشبینی کند کدام وزنهای داخلی در لحظه بعد نیاز هستند. او این مفاهیم را دقیقاً به شکل زیر نگاشت کرد:
- لایههای عمیق سنگ $ \rightarrow $ وزنهای مدل ۲۳۵ میلیارد پارامتری که بهصورت «سرد» روی SSD NVMe قرار دارند.
- پالس سطحی EM $ \rightarrow $ بخش «پیشاهنگ» (Surface Scout) که توکن فعلی را پردازش میکند.
- فونونهای تولید شده $ \rightarrow $ نقشه پیشبینیشدهی فعالسازی خبرهها توسط پیشاهنگ.
- گیرندههای آکوستیک $ \rightarrow $ رشته I/O غیرهمزمان (async) که پیشبینیها را میخواند.
- نقشه لرزهای $ \rightarrow $ جدول زمانبندی پیشبینی خبرهها برای K-گام آینده.
- تصویر بازسازی شده $ \rightarrow $ توکن تولید شده نهایی.
معماری S-MoE که با بکاند محاسباتی Metal برای تراشههای اپل ساخته شده، از سه جریان موازی استفاده میکند تا اطمینان حاصل شود هیچ رشتهای منتظر رشته دیگر نمیماند:
اول، The Sculptor (مجسم): این مرحله از یک اسکریپت پایتونی به نام shatter_moe.py استفاده میکند تا مدل MoE پشتیبانیشده را به دو اثر اصلی تقسیم کند:
- گاوصندوق (The Vault .smoe): شامل تمام بلوکهای خبرههای مسیریابی شده است. این بخشها بهشدت کوانتیزه شده و با مرزهای سختافزاری ۱۶ کیلوبایتی تراز شدهاند تا امکان استفاده از Direct I/O فراهم شود.
- پیشاهنگ (The Scout .scout.safetensors): شامل ستون فقرات متراکم مدل است (مانند Embeddingها، لایههای Attention، نرمالسازها و گیتهای مسیریابی) که بهطور دائمی در حافظه یکپارچه (Unified Memory) باقی میماند.
دوم، The Scout (پیشاهنگ): در هر گام از تولید توکن، پیشاهنگ یک گذر کامل (Forward Pass) را روی توکن فعلی اجرا میکند. از آنجایی که پیشاهنگ از بخشهای متراکم مدل ساخته شده، ماتریسهای گیت مسیریابی آن لوجیتهایی تولید میکنند که به عنوان یک «نقشه فونون» عمل میکند.
این یک اثر انگشت ساختاری است که به صورت احتمالی پیشبینی میکند کدام ستونهای خبره در شبکه پیشخور (FFN) در تمام لایههای MoE برای K توکن آینده فعال خواهند شد. این بخش یک مدل مجزا نیست که توسط ویسچیولا آموزش دیده باشد، بلکه همان مدل هدف است، منهای وزنهای خبرهها.
سوم، The Streamer + Metal Kernel (جریانساز و هسته متال): با هدایت پیشبینیهای پیشاهنگ، سیستم یک خط لوله داده با سرعت بالا را اجرا میکند:
- رشتههای I/O: از فراخوانیهای
pread()با پرچمF_NOCACHEاستفاده میکنند تا حافظه موقت صفحات (Page Cache) سیستمعامل را کاملاً دور بزنند و دادهها را مستقیماً از مسیر SSD $ \rightarrow $ DMA $ \rightarrow $ RAM منتقل کنند. - Ring Buffer: خبرهها در یک بافر حلقوی پیشتخصیصیافته و تراز شده در حافظه یکپارچه بارگذاری میشوند.
- اجرای GPU: هسته GPU در Metal دادهها را از این بافر میخواند و محاسبات FFN را از طریق یک عملیات ادغامشدهی «رمزگشایی-ضرب» (fused dequant-multiply) انجام میدهد و وزنهای فشرده را مستقیماً در فضای رگیسترهای GPU رمزگشایی میکند.
برای حفظ این سطح از عملکرد، ویسچیولا سه قانون مهندسی تخطیناپذیر وضع کرده است:
- عدم تخصیص حافظه در زمان اجرا (No runtime heap allocations): استفاده از
malloc،newوstd::vector::resizeدر حلقه تولید توکن ممنوع است. تمام بافرها در هنگام استارتآپ برش خورده و آماده میشوند. - فقط Direct I/O: استفاده از
F_NOCACHEروی تمام توصیفگرهای فایلهای گاوصندوق. این کار تضمین میکند هیچ کپی اضافهای بین SSD و رم توسط سیستمعامل صورت نگیرد. - فقط همگامسازی اتمیک (Atomic synchronization): استفاده از Mutexهای سیستمعامل ممنوع است. این امر تضمین میکند رشتههای I/O و GPU بهطور ساختاری قادر نباشند مسیر یکدیگر را مسدود کنند.
این موتور اکنون مدل-آگنوستیک (Model-Agnostic) است. S-MoE در زمان بوت، سرآیند تنسور (Tensor Header) را میخواند تا موارد زیر را بهطور خودکار شناسایی کند:
- اندازه دایره لغات (Vocabulary size) و ابعاد پنهان (Hidden dimension).
- ابعاد میانی FFN.
- تعداد لایههای MoE و تعداد خبرهها در هر لایه.
- معماری لایه صفر (تشخیص اینکه آیا یک MLP متراکم مانند DeepSeek است یا یک لایه MoE کامل مانند Qwen).
این قابلیت به موتور اجازه میدهد بدون نیاز به کامپایل مجدد یا فایلهای تنظیمات، خودش را بازطراحی کند. هدف فعلی، مدل Qwen3-235B-A22B-Instruct-2507 است؛ مدلی پیشرو با ۲۳۵ میلیارد پارامتر (۲۲ میلیارد پارامتر فعال در هر گذر) و ۱۲۸ خبره در هر لایه MoE. این مدل که تحت لایسنس Apache 2.0 منتشر شده، به دانلود ۴۰۰ گیگابایتی نیاز دارد و از نوع مدلهایی است که معمولاً به خوشهای گرافیکی ۲۵۰ هزار دلاری نیاز دارند.
ویسچیولا با دقت عمل میکند تا S-MoE را به عنوان یک محصول بینقص بیشارزش جلوه ندهد؛ پیشبینیهای پیشاهنگ کامل نیستند و منجر به توقفهای کوتاه (Spin-waits) در سیستم میشوند و کوانتیزاسیون نیز مقداری خطا ایجاد میکند. روی یک مک ۱۶ گیگابایتی، نرخ تولید (Throughput) پایین خواهد بود و احتمالاً هر چند ثانیه تنها یک توکن تولید شود.
با این حال، او بر روی یک ادعای بنیادین پافشاری میکند: یک مک ۱۶ گیگابایتی و یک مک ۵۱۲ گیگابایتی دقیقاً خروجیهای یکسانی تولید خواهند کرد. سرعت با سختافزار مقیاس میپذیرد، اما هوش مدل تنزل نمییابد. کاربر یک مکبوک ایر همان ۲۳۵ میلیارد پارامتر، همان عمق استدلالی و همان دانش را دریافت میکند که کاربر یک مک پرو دریافت میکند. این امر، توانایی دسترسی به هوش پیشرو را از بودجه مورد نیاز برای خرید مقادیر عظیم رم جدا میکند.
جالب است که این آزمایش با کمک یک عامل (Agent) هوش مصنوعی طراحی شده است. ویسچیولا، یک توسعهدهنده وب Full-stack خودآموخته است که گیتهابش معمولاً پر از فرانتاندها و استکهای وب است و نه بهینهسازیهای پیچیده کرنل GPU یا مدیریت حافظه سطح پایین. او کنجکاوی و جهتگیری معماری را فراهم کرد.
او این همکاری را به عنوان پلی توصیف میکند که در آن او شکل آنچه را که میخواست توصیف میکرد و سوالات سادهای میپرسید. عامل AI کد C++ را نوشت و ویسچیولا آن را میخواند و تلاش میکرد معنای اشارهگرها (Pointers) و تخصیصهای حافظه را بفهمد و هرگاه طراحی بیش از حد پیچیده میشد، آن را به چالش میکشید. او پیشرفت این پروژه را مدیون این واقعیت میداند که چون آموزش رسمی ندیده بود، نمیدانست این کار «بهطور بدیهی غیرممکن» است و به همین دلیل جرئت پرسیدن سوالاتی را داشت که متخصصان شاید از ترس شکست نمیپرسیدند.
برای کاربران عادی، این یعنی سد راه «هوش مصنوعی حاکمیتی» (Sovereign AI) — یعنی داشتن مدلهای قدرتمند بدون وابستگی به شرکتهای ابری — دیگر یک سرور ۲۰۰ هزار دلاری نیست. اگر رویکرد S-MoE بیشتر بهینه شود، SSDهای NVMe که هماکنون در اکثر لپتاپها قرار دارند و تنها چند سانتیمتر با CPU فاصله دارند، به حافظه اصلی GPU برای بزرگترین مدلهای جهان تبدیل خواهند شد.
توسعهدهندگان علاقهمند میتوانند پیادهسازی این پروژه را در گیتهاب به آدرس github.com/melasistema/s-moe بررسی کنند، جایی که پروژه تحت لایسنس MIT منتشر شده است. S-MoE که توسط لوکا ویسچیولا و یک عامل AI ساخته شده، ثابت میکند که دیوار حافظه اغلب نتیجه پیشفرضهای نرمافزاری است، نه یک قانون طبیعت.
گام بعدی شما
- اگر توسعهدهنده هستید، مخزن
github.com/melasistema/s-moeرا بررسی کنید تا با مدیریت حافظه Direct I/O آشنا شوید. - مدلهای MoE را جایگزین مدلهای متراکم (Dense) کنید تا از پتانسیل بارگذاری پویا استفاده کنید.
- منتظر بهینهسازیهای بعدی در لایه Metal برای افزایش سرعت تولید توکن باشید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell و مدیریت حافظه در مقیاس دیتاسنتری مراجعه کنید.




گفتگو