SDR و Ternary Compute؛ Nexuscortex سرعت استنتاج را ۷۳.۹ برابر افزایش داد

اگر امروز سیستم‌های هوش مصنوعی می‌سازید، احتمالاً در تله‌ی ناکارآمدی ماتریس‌های متراکم گیر کرده‌اید. باید بدانید که برای رسیدن به سرعت‌های واقعی در دستگاه‌های لبه، باید معماری‌های رایج را کنار بگذارید.

صنعت اکنون به سمت مدل‌های زبانی کوچک (SLM) حرکت می‌کند. این یعنی نیاز به ابزارهایی داریم که بدون خوشه‌های عظیم GPU کار کنند. Nexuscortex با بازگشت به مدل‌های الهام‌گرفته از علوم اعصاب، تلاش می‌کند «پراکندگی» مغز انسان را جایگزین قدرت پردازش خام کند. همان‌طور که در تحلیل قبلی ما درباره‌ی بهینه‌سازی مدل‌های لبه اشاره کردیم، هر میلی‌ثانیه در استنتاج، معنای اقتصادی دارد.

به نقل از مستندات این پروژه در گیت‌هاب، این سیستم با Go 1.21+ ساخته شده تا از «جهنم وابستگی‌های» پایتون فاصله بگیرد. طبق گزارش منتشر شده در ۲۹ مه ۲۰۲۶، این معماری به سرعت خیره‌کننده‌ای در استنتاج (Inference) — که شبیه به لحظه‌ی خودِ آشپزی است، نه دوره‌ی آموزش آشپز — دست یافته است.

ویژگی‌های فنی این سازوکار عبارتند از:

محاسبات سه‌گانه (Ternary Compute): استفاده از وزن‌های فشرده RGBA32 برای کاهش حافظه به ۰.۲۵ بایت به ازای هر پارامتر.
توجه SDR (SDR Attention): پیاده‌سازی نمایش‌های توزیع‌شده پراکنده (SDR) — مثل کارت معرفی عددی برای هر واژه که می‌گوید این کلمه «همسایه‌ی» چه کلمات دیگری است — برای بازیابی سریع.
مناطق عصبی: ۱۰ ماژول مجزا، از جمله «هیپوکامپ» برای حافظه اپیزودیک و ماژول «خواب» برای هرس سیناپسی.
اعتبارسنجی: اجرای ۱۳۷ تست واحد و ۳ تست فاز (fuzz) برای تضمین پایداری سیستم.

این پروژه جایگزینی برای مدل‌های عظیم نیست، اما یک فرض قدیمی را می‌شکند: اینکه AI با کارایی بالا حتماً باید با پایتون نوشته شود. برای توسعه‌دهندگان، این یعنی بازگشت به «فیزیک حافظه». وقتی منطق بازیابی را به جای فراخوانی API، در سطح زبان کامپایل‌شده پیاده می‌کنیم، سرعت ۷۳ برابری دیگر یک اتفاق نیست، بلکه نتیجه‌ی مهندسی است.

گام بعدی شما

منطق انتقال حافظه را در فایل sleep_consolidation.go در گیت‌هاب بررسی کنید.
برای پیاده‌سازی سیستم‌های حافظه کوتاه-مدت در پروژه‌های خود، از متد popcount برای شباهت‌سنجی استفاده کنید.
منتظر انتشار بک‌اند WebGPU باشید تا سرعت پردازش‌های پراکنده را بیشتر بسنجید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید. در همین راستا، بهینه‌سازی‌های لایه‌ی الگوریتمی نیز نقش کلیدی در بهره‌وری سخت‌افزار دارند؛ برای نمونه می‌توان بررسی کرد که چگونه TLX Block Attention با حذف سربارهای الگوریتمی، سرعت پردازش در تراشه‌های B200 را ۲.۵ برابر کرد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

ویژگی‌های فنی این سازوکار عبارتند از:

محاسبات سه‌گانه (Ternary Compute): استفاده از وزن‌های فشرده RGBA32 برای کاهش حافظه به ۰.۲۵ بایت به ازای هر پارامتر.
توجه SDR (SDR Attention): پیاده‌سازی نمایش‌های توزیع‌شده پراکنده (SDR) — مثل کارت معرفی عددی برای هر واژه که می‌گوید این کلمه «همسایه‌ی» چه کلمات دیگری است — برای بازیابی سریع.
مناطق عصبی: ۱۰ ماژول مجزا، از جمله «هیپوکامپ» برای حافظه اپیزودیک و ماژول «خواب» برای هرس سیناپسی.
اعتبارسنجی: اجرای ۱۳۷ تست واحد و ۳ تست فاز (fuzz) برای تضمین پایداری سیستم.

گام بعدی شما

منطق انتقال حافظه را در فایل sleep_consolidation.go در گیت‌هاب بررسی کنید.
برای پیاده‌سازی سیستم‌های حافظه کوتاه-مدت در پروژه‌های خود، از متد popcount برای شباهت‌سنجی استفاده کنید.
منتظر انتشار بک‌اند WebGPU باشید تا سرعت پردازش‌های پراکنده را بیشتر بسنجید.

SDR و Ternary Compute؛ Nexuscortex سرعت استنتاج را ۷۳.۹ برابر افزایش داد

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

SDR و Ternary Compute؛ Nexuscortex سرعت استنتاج را ۷۳.۹ برابر افزایش داد

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

SDR و Ternary Compute؛ Nexuscortex سرعت استنتاج را ۷۳.۹ برابر افزایش داد

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

SDR و Ternary Compute؛ Nexuscortex سرعت استنتاج را ۷۳.۹ برابر افزایش داد

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران