GPT-4o LATENCY240msCLAUDE OPUS 4.7ONLINENVDA+1.2%MISTRAL LARGE 2STREAMINGOPENAI API99.97% UPTIMEGROQ MIXTRAL580 tok/sGEMINI 2.5 PROCTX 2MANTHROPIC STATUSOKTSMC+0.4%PERPLEXITYINDEXINGGPT-4o LATENCY240msCLAUDE OPUS 4.7ONLINENVDA+1.2%MISTRAL LARGE 2STREAMINGOPENAI API99.97% UPTIMEGROQ MIXTRAL580 tok/sGEMINI 2.5 PROCTX 2MANTHROPIC STATUSOKTSMC+0.4%PERPLEXITYINDEXING
پرش به محتوای مقاله

SDR و Ternary Compute؛ Nexuscortex سرعت استنتاج را ۷۳.۹ برابر افزایش داد

·۱۵ خرداد ۱۴۰۵۵ دقیقه مطالعه
گیت‌هاب Nexuscortex: معماری شناختی تنک آزمایشی در Go. توجه SDR، محاسبات ترنری، سیستم‌های حافظه، تثبیت خواب، ۱۳۷ تست.
گیت‌هاب Nexuscortex: معماری شناختی تنک آزمایشی در Go. توجه SDR، محاسبات ترنری، سیستم‌های حافظه، تثبیت خواب، ۱۳۷ تست.
اشتراک‌گذاری
واقعاً چه چیز جدید است؟

جایگزینی کامل ماتریس‌های متراکم با نمایش‌های پراکنده (SDR) در محیط زبان Go، که منجر به افزایش سرعت ۷۳ برابری در استنتاج بدون افت شدید دقت در وظایف شناختی خاص شد.

اگر امروز سیستم‌های هوش مصنوعی می‌سازید، احتمالاً در تله‌ی ناکارآمدی ماتریس‌های متراکم گیر کرده‌اید. باید بدانید که برای رسیدن به سرعت‌های واقعی در دستگاه‌های لبه، باید معماری‌های رایج را کنار بگذارید.

صنعت اکنون به سمت مدل‌های زبانی کوچک (SLM) حرکت می‌کند. این یعنی نیاز به ابزارهایی داریم که بدون خوشه‌های عظیم GPU کار کنند. Nexuscortex با بازگشت به مدل‌های الهام‌گرفته از علوم اعصاب، تلاش می‌کند «پراکندگی» مغز انسان را جایگزین قدرت پردازش خام کند. همان‌طور که در تحلیل قبلی ما درباره‌ی بهینه‌سازی مدل‌های لبه اشاره کردیم، هر میلی‌ثانیه در استنتاج، معنای اقتصادی دارد.

به نقل از مستندات این پروژه در گیت‌هاب، این سیستم با Go 1.21+ ساخته شده تا از «جهنم وابستگی‌های» پایتون فاصله بگیرد. طبق گزارش منتشر شده در ۲۹ مه ۲۰۲۶، این معماری به سرعت خیره‌کننده‌ای در استنتاج (Inference) — که شبیه به لحظه‌ی خودِ آشپزی است، نه دوره‌ی آموزش آشپز — دست یافته است.

ویژگی‌های فنی این سازوکار عبارتند از:

  • محاسبات سه‌گانه (Ternary Compute): استفاده از وزن‌های فشرده RGBA32 برای کاهش حافظه به ۰.۲۵ بایت به ازای هر پارامتر.
  • توجه SDR (SDR Attention): پیاده‌سازی نمایش‌های توزیع‌شده پراکنده (SDR) — مثل کارت معرفی عددی برای هر واژه که می‌گوید این کلمه «همسایه‌ی» چه کلمات دیگری است — برای بازیابی سریع.
  • مناطق عصبی: ۱۰ ماژول مجزا، از جمله «هیپوکامپ» برای حافظه اپیزودیک و ماژول «خواب» برای هرس سیناپسی.
  • اعتبارسنجی: اجرای ۱۳۷ تست واحد و ۳ تست فاز (fuzz) برای تضمین پایداری سیستم.

این پروژه جایگزینی برای مدل‌های عظیم نیست، اما یک فرض قدیمی را می‌شکند: اینکه AI با کارایی بالا حتماً باید با پایتون نوشته شود. برای توسعه‌دهندگان، این یعنی بازگشت به «فیزیک حافظه». وقتی منطق بازیابی را به جای فراخوانی API، در سطح زبان کامپایل‌شده پیاده می‌کنیم، سرعت ۷۳ برابری دیگر یک اتفاق نیست، بلکه نتیجه‌ی مهندسی است.

گام بعدی شما

  • منطق انتقال حافظه را در فایل sleep_consolidation.go در گیت‌هاب بررسی کنید.
  • برای پیاده‌سازی سیستم‌های حافظه کوتاه-مدت در پروژه‌های خود، از متد popcount برای شباهت‌سنجی استفاده کنید.
  • منتظر انتشار بک‌اند WebGPU باشید تا سرعت پردازش‌های پراکنده را بیشتر بسنجید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید. در همین راستا، بهینه‌سازی‌های لایه‌ی الگوریتمی نیز نقش کلیدی در بهره‌وری سخت‌افزار دارند؛ برای نمونه می‌توان بررسی کرد که چگونه TLX Block Attention با حذف سربارهای الگوریتمی، سرعت پردازش در تراشه‌های B200 را ۲.۵ برابر کرد.

چرا این موضوع مهم است؟

این معماری استانداردهای بهره‌وری در مدل‌های لبه را جابه‌جا می‌کند. تخصص در زبان‌های کامپایل‌شده مثل Go اکنون به یک مزیت رقابتی برای کاهش هزینه‌های استنتاج و حذف وابستگی به GPUهای گران‌قیمت تبدیل شده است.

تأثیر برای ایران

این پروژه به‌دلیل متن‌باز بودن و تکیه بر زبان Go، فرصت مناسبی برای برنامه‌نویسان ایرانی است تا بدون نیاز به سخت‌افزارهای گران‌قیمت GPU، روی بهینه‌سازی استنتاج در لبه کار کنند.

·نگاه ما
تحریریه دات‌هوش

تحلیل ما این است که Nexuscortex نقطه آغاز بازگشت به «سخت‌افزار-محوری» در نرم‌افزار است. در حالی که دنیا روی پرامپت‌ها تمرکز کرده، این پروژه ثابت می‌کند که بهینه‌سازی در لایه‌ی زیربنایی (Low-level)، نتایجی می‌دهد که صرفاً با افزایش اندازه مدل (Scaling) به دست نمی‌آیند.

منابع

گفتگو

شماره ۰۵۳پنج‌شنبه‌های هوش‌محور

بسته‌ی هفتگی دات‌هوش

۵ خبر، ۲ ابزار، ۱ پرامپت — به‌علاوه ۳ بخش جدید. بدون هیاهو، هر پنج‌شنبه صبح.

خبر کلیدی
ابزار کاربردی
پرامپت حرفه‌ای
تحلیل پژوهش
به‌زودی
زاویه‌ی ایرانی
به‌زودی
تمرین این هفته
به‌زودی
۰۰:۰۰تا شماره بعدیهفته‌ی ۵۳ بدون وقفه