باید بدانید که شبکههای عصبی عمیق با یک دیوار نامرئی مواجهاند: آنها بهتدریج توانایی جذب اطلاعات جدید را از دست میدهند. این پدیده که «زوال پلاستیسیته» (Plasticity Loss) نامیده میشود، باعث میشود مدلها در یادگیری مستمر به بنبست برسند و دیگر قادر به بهروزرسانی دانش خود نباشند.
طبق پژوهشی که در ۹ ژوئن ۲۰۲۶ در arXiv.org منتشر شد، راهکار عبور از این بنبست، حفظ ایزومتری پویا (Dynamical Isometry) است. در این وضعیت، مقادیر تکین (Singular Values) ژاکوبین در لایههای شبکه نزدیک به عدد یک باقی میمانند و اجازه نمیدهند سیگنالهای یادگیری در لایههای عمیق محو شوند.
برای حل این معضل، پژوهشگران دو دستاورد کلیدی ارائه دادهاند:
- یک طرح منظمساز (Regularization) برای ترویج ایزومتری که قادر است واحدهای غیرفعال ReLU را دوباره فعال کرده و بخشهای «خوابیده» شبکه را بیدار کند.
- بهینهساز AdamO؛ یک بهینهساز تطبیقی بر پایه Adam که منظمسازی ایزومتری را از بهروزرسانیهای گرادینت جدا میکند (مشابه فلسفه طراحی AdamW).
همانطور که در بررسیهای پیشین خود دربارهی پایداری مدلهای زبانی در مراحل همراستاسازی (Alignment) اشاره کردیم، افت عملکرد در طول آموزشهای طولانی یک چالش همیشگی بوده است. یادگیری مستمر (Continual Learning) هدف آن است که مدلها بتوانند زنجیرهای از وظایف را بدون «فراموشی فاجعهبار» یا رکود کامل بیاموزند. بر اساس مستندات این مقاله، زوال پلاستیسیته بهطور بنیادی با هسته تانژانت عصبی تجربی (Empirical NTK) در ارتباط است.
تحلیل دادهها نشان میدهد که برخلاف باورهای پیشین، ایزومتری پویا با بازنماییهای غیرخطی بیانگر (Expressive) و تقریب توابع لیپشیتس جهانی سازگار است. به نقل از نویسندگان، این یافته فرض قدیمی دربارهی تضاد میان «بیانگری» و «پایداری» مدل را میشکند و نتایج بهدستآمده در محیطهای یادگیری نظارتی و تقویتشده، استانداردهای فعلی را به چالش کشیده است.
گام بعدی شما
- پیادهسازی AdamO را در خطلولههای تنظیم دقیق (Fine-tuning) بلندمدت برای جلوگیری از تخریب عملکرد در مراحل نهایی بررسی کنید.
- اثر این بهینهساز بر کاهش هزینههای محاسباتی در محیطهای غیرایستا (Non-stationary) را ارزیابی نمایید.
- رصد کنید که آیا این سازوکار در معماریهای تریلیون-پارامتری نیز مقیاسپذیر است یا خیر.
ama این تنها آغاز ماجراست؛ اثر موجگونهی این تصمیم بر اکوسیستم مدلهای بازمتن را در گزارش بعدی بررسی خواهیم کرد.
گفتگو