تصور کنید تمام ابزارهای تثبیتکنندهای که سالها در آموزش مدلها استفاده کردهایم، تنها «چسب زخم»هایی برای پوشاندن یک خلأ ریاضی بودهاند. اگر هنوز برای جلوگیری از ناپایداری عددی به ترفندهای رایج تکیه میکنید، باید بدانید که قواعد بازی در حال تغییر است.
در ۷ می ۲۰۲۶، طبق گزارشی که در arxiv.org منتشر شد، چارچوب MACRO (بهینهساز ریمانی با محدودیتهای همراستا با Msign) معرفی شد. این متد ادعا میکند که میتوان نیاز به ابزارهای سنتی مانند کاهش وزن (Weight Decay) و نرمالسازی RMS (RMS Normalization) را بهطور کامل حذف کرد، بدون اینکه ذرهای از عملکرد مدل کاسته شود.
به نقل از مستندات این پژوهش، MACRO به جای استفاده از جریمههای تجربی، از محدودیتهای منیفولد (Manifold Constraints) برای کنترل مقیاس فعالسازها و ایجاد یک تعادل چرخشی پایدار استفاده میکند. این یعنی پایداری مدل دیگر به «حدس و گمان» مهندسان بستگی ندارد، بلکه در ساختار هندسی بهینهسازی نهفته است.
ویژگیهای کلیدی این معماری عبارتند از:
- ساختار بهینهسازی تکحلقهای با قابلیت اثبات همگرایی.
- حفظ دقیق تضمینهای تئوریک بهینهسازی ریمانی (Riemannian Optimization).
- مدیریت مستقل مقیاس فعالسازها بدون نیاز به لایههای مجزای نرمالسازی.
همانطور که در تحلیل قبلی ما دربارهی رانش پنهان پارامترها (parameter drift) اشاره کردیم، نوسانات وزنها میتواند امنیت و رفتار مدلهای زبانی بزرگ را به خطر اندازد. MACRO با محدود کردن وزنها به یک منیفولد هندسی خاص، راهکاری ریاضی برای جلوگیری از این رانشها ارائه میدهد و جایگزینی سختگیرانه برای جریمههای اکتشافی است.
بر اساس بررسی منابع متعدد، اگرچه این مطالعه تأیید میکند که MACRO عملکردی بسیار رقابتی دارد، اما نویسندگان درصد دقیق بهبود در بنچمارکها را در چکیده مقاله ذکر نکردهاند. با این حال، با حرکت به سمت مدلهایی با تریلیونها پارامتر، جایگزینی «ترفندهای مهندسی» با «هندسه ریمانی» احتمالاً تنها راه نجات برای تضمین پایداری در مقیاسهای عظیم است.
اما این تحول ریاضی تنها نیمی از داستان است؛ تأثیر این متد بر بهرهوری سختافزاری و کاهش هزینههای استنتاج را در گزارش بعدی بررسی خواهیم کرد.
گام بعدی شما
- بررسی مقاله MACRO در arxiv برای درک نحوه پیادهسازی محدودیتهای منیفولد در لایههای خطی.
- مقایسه هزینهی محاسباتی بهینهساز ریمانی در برابر AdamW در پروژههای کوچک.
- تحلیل اثر حذف لایههای RMSNorm بر سرعت استنتاج (Inference) در مدلهای لبه.




گفتگو