اگر تصور میکنید پسانتشار (Backpropagation) تنها مسیر ممکن برای رسیدن به دقت بالا در یادگیری عمیق است، باید با یک چرخش بنیادین در محاسبات فیزیکی آشنا شوید. باید بدانید که هزینههای هنگفت انرژی در آموزشهای مبتنی بر GPU دیگر تنها گزینه پیشروی ما نیستند.
به نقل از پژوهشی که در ۹ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، چوان وانگ (Chuan Wang) و همکارانش چارچوبی را توسعه دادهاند که مدلهای انرژیمحور را قادر میسازد با آموزشهای سنتی مبتنی بر گرادیان رقابت کنند. همانطور که در تحلیلهای پیشین ما دربارهی بهینهسازی لایههای پنهان در شبکههای عصبی اشاره کردیم، جستوجو برای جایگزینی محاسبات متمرکز با قوانین محلی، همواره یک اولویت در جامعهی پژوهشی بوده است.
در واقع، انتشار تعادلی (Equilibrium Propagation یا EP) به عنوان جایگزینی کمانرژی طراحی شده بود، اما بهطور تاریخی با مشکل «انقباض فضای فاز» (Phase-space contraction) دستوپنجه نرم میکرد. این نقص باعث میشد مدلها در مینیممهای محلی بهدام بیفتند و در معماریهای عمیق، همگرایی (Convergence) رخ ندهد.
طبق مستندات این پژوهش، چارچوب جدید با جایگزینی «آرامسازی هاپفلد اتلافی» (Dissipative Hopfield relaxation) با دینامیکهای گسترشیافتهی فضای فاز و استفاده از متغیرهای مزدوج (Conjugate variables)، این گره را باز کرده است. جزئیات فنی این دستاورد عبارت است از:
- ترکیب EP با دینامیک ایسینگ (Ising-dynamics) برای کاهش موانع انرژی.
- بهبود مقاومت در برابر نویز بدون تغییر در قوانین یادگیری دو-فازی محلی.
- پیادهسازی روی شبکههای هاپفلد کانولوشنی عمیق (Deep Convolutional Hopfield Networks).
کارایی این روش در سه بنچمارک کلیدی MNIST، FashionMNIST و CIFAR-10 به اثبات رسیده و نتایجی مشابه با پسانتشار استاندارد ارائه داده است.
این تغییر در دینامیکها ثابت میکند که ناپایداری EP یک نقص بنیادین نیست، بلکه محدودیت مسیر فیزیکی برای رسیدن به تعادل بوده است. با تغییر مکانیسم آرامسازی، اکنون میتوان به سمت مدلهای انرژیمحور عمیقی حرکت کرد که نیازی به بهروزرسانیهای سراسری وزنها (Global weight updates) ندارند. این تحول میتواند طراحی سختافزاری نسل بعدی هوش مصنوعی را از GPUهای پرمصرف به سمت سیستمهای فیزیکی بومی الهامگرفته از ایسینگ ببرد.
گام بعدی شما
- پژوهشگران باید امکان پیادهسازی متغیرهای مزدوج را روی سختافزارهای نورومورفیک (Neuromorphic) بررسی کنند.
- دنبال کنید که آیا این دستاوردهای تئوریک در محیط عملیاتی منجر به کاهش واقعی توان مصرفی در مقیاس صنعتی میشود یا خیر.
- مقایسهی نرخ خطای این مدلها در دادههای خارج از توزیع (Out-of-distribution) را زیر نظر بگیرید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است؛ برای درک چگونگی تغییر معماری تراشهها، به تحلیل ما دربارهی سختافزارهای غیر-فون نویمان مراجعه کنید.
گفتگو