اگر امروز سیستمهای هوش مصنوعی میسازید، احتمالاً در تلهی ناکارآمدی ماتریسهای متراکم گیر کردهاید. باید بدانید که برای رسیدن به سرعتهای واقعی در دستگاههای لبه، باید معماریهای رایج را کنار بگذارید.
صنعت اکنون به سمت مدلهای زبانی کوچک (SLM) حرکت میکند. این یعنی نیاز به ابزارهایی داریم که بدون خوشههای عظیم GPU کار کنند. Nexuscortex با بازگشت به مدلهای الهامگرفته از علوم اعصاب، تلاش میکند «پراکندگی» مغز انسان را جایگزین قدرت پردازش خام کند. همانطور که در تحلیل قبلی ما دربارهی بهینهسازی مدلهای لبه اشاره کردیم، هر میلیثانیه در استنتاج، معنای اقتصادی دارد.
به نقل از مستندات این پروژه در گیتهاب، این سیستم با Go 1.21+ ساخته شده تا از «جهنم وابستگیهای» پایتون فاصله بگیرد. طبق گزارش منتشر شده در ۲۹ مه ۲۰۲۶، این معماری به سرعت خیرهکنندهای در استنتاج (Inference) — که شبیه به لحظهی خودِ آشپزی است، نه دورهی آموزش آشپز — دست یافته است.
ویژگیهای فنی این سازوکار عبارتند از:
- محاسبات سهگانه (Ternary Compute): استفاده از وزنهای فشرده RGBA32 برای کاهش حافظه به ۰.۲۵ بایت به ازای هر پارامتر.
- توجه SDR (SDR Attention): پیادهسازی نمایشهای توزیعشده پراکنده (SDR) — مثل کارت معرفی عددی برای هر واژه که میگوید این کلمه «همسایهی» چه کلمات دیگری است — برای بازیابی سریع.
- مناطق عصبی: ۱۰ ماژول مجزا، از جمله «هیپوکامپ» برای حافظه اپیزودیک و ماژول «خواب» برای هرس سیناپسی.
- اعتبارسنجی: اجرای ۱۳۷ تست واحد و ۳ تست فاز (fuzz) برای تضمین پایداری سیستم.
این پروژه جایگزینی برای مدلهای عظیم نیست، اما یک فرض قدیمی را میشکند: اینکه AI با کارایی بالا حتماً باید با پایتون نوشته شود. برای توسعهدهندگان، این یعنی بازگشت به «فیزیک حافظه». وقتی منطق بازیابی را به جای فراخوانی API، در سطح زبان کامپایلشده پیاده میکنیم، سرعت ۷۳ برابری دیگر یک اتفاق نیست، بلکه نتیجهی مهندسی است.
گام بعدی شما
- منطق انتقال حافظه را در فایل
sleep_consolidation.goدر گیتهاب بررسی کنید. - برای پیادهسازی سیستمهای حافظه کوتاه-مدت در پروژههای خود، از متد popcount برای شباهتسنجی استفاده کنید.
- منتظر انتشار بکاند WebGPU باشید تا سرعت پردازشهای پراکنده را بیشتر بسنجید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید. در همین راستا، بهینهسازیهای لایهی الگوریتمی نیز نقش کلیدی در بهرهوری سختافزار دارند؛ برای نمونه میتوان بررسی کرد که چگونه TLX Block Attention با حذف سربارهای الگوریتمی، سرعت پردازش در تراشههای B200 را ۲.۵ برابر کرد.




گفتگو