اگر تصور کنید هر لایه جدید در یک مدل هوش مصنوعی باید دانش بیشتری اضافه کند، در واقع با یک توهم فنی روبرو هستید. در مدلهای فعلی، رسیدن به نقطهای وجود دارد که افزودن لایههای بیشتر نه تنها کمکی نمیکند، بلکه به دلیل رشد بیش از حد «نرم» (Norm) در جریان باقیمانده، اثرات لایههای جدید خنثی میشود.
طبق تحلیل فنی منتشرشده در arxiv.org در تاریخ ۱۶ ژوئن ۲۰۲۶، این رشد سیستماتیک باعث میشود بهروزرسانیهای لایههای انتهایی در حجم زیاد دادههای قبلی غرق شوند و عمق مدل عملاً هدر برود. همانطور که در تحلیلهای قبلی ما دربارهی قوانین مقیاسپذیری (Scaling Laws) اشاره کردیم، افزایش صرفاً کمّی پارامترها بدون اصلاح ساختاری، بازدهی مدل را به شدت کاهش میدهد.
برای حل این چالش، پژوهشگران معماری NAG (Norm-Agnostic residual architecture) را پیشنهاد دادهاند. این چارچوب با تفکیک «اندازه» از «اطلاعات جهتدار» در جریان باقیمانده، تضمین میکند که سهم هر لایه، فارغ از میزان عمق شبکه، معنادار باقی بماند.
به نقل از مستندات این پروژه، تغییرات کلیدی NAG شامل موارد زیر است:
- ناشناسبودن نرم (Norm-Agnosticism): جلوگیری از غرق شدن بهروزرسانیهای جدید در وضعیت انباشتهشدهی لایههای قبلی.
- بهینگی محاسباتی: استفاده از عملیات ساده و قابل ادغام در کرنل (Kernel-fusible) که تعداد پارامترهای اضافه را به حداقل میرساند.
- عمق تطبیقی: فعالسازی مکانیسم «ترکیبی از عمقها» (Mixture-of-Depths یا MoD) که اجازه میدهد مدل در مسیر پیشرو، برخی لایههای Attention و MLP را بهطور کامل نادیده بگیرد. این رویکرد بهینهسازی مسیر پردازش در مدلهای پویا شباهت دارد؛ همانطور که سازوکار TRACE در مدلهای MoE با مدیریت دقیق مسیریابی به هدفمندسازی حذف دادهها کمک میکند.
بر اساس بررسیهای تیم تحقیق، نرخهای MoD بین ۲۰ تا ۲۵ درصد توانستهاند عملکردی برابر با مدلهای کاملعمق (Baseline) ارائه دهند، در حالی که هزینه استنتاج (Inference) بهطور قابلتوجهی کاهش یافته است. این یعنی میتوان بتوان محاسباتی ذخیرهشده را دوباره در آموزش روی توکنهای بیشتر سرمایهگذاری کرد، بدون آنکه بودجه KV-cache یا تعداد پارامترها تغییر کند.
گام بعدی شما
- توسعهدهندگان باید پیادهسازی NAG در چارچوبهای وزنهای باز (Open Weights) را رصد کنند.
- بررسی اثر این معماری بر کاهش سختافزار مورد نیاز برای اجرای مدلهای فوقعمیق.
- آزمایش مکانیسم MoD برای بهینهسازی هزینههای عملیات استنتاج در محیطهای تولید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو