اگر تصور میکنید افزایش عرض اتوانکودرهای پراکنده (SAE) در نهایت منجر به درک کامل لایههای مدل میشود، باید بدانید با یک «دیوار هندسی» روبرو هستید. این یافته نشان میدهد که برخی از خطاهای بازسازی در مدلهای زبانی، نه به دلیل کمبود منابع، بلکه به دلیل ماهیت ریاضیاتی ساختار آنهاست.
در حال حاضر، اتوانکودرهای پراکنده (Sparse Autoencoders) ابزار اصلی برای تفسیرپذیری مکانیکی (Mechanistic Interpretability) هستند. هدف این ابزارها تجزیهی فعالسازهای پیچیده به «اتمهای» قابلفهم است. همانطور که در تحلیلهای پیشین ما دربارهی ساختار داخلی مدلهای زبانی اشاره کردیم، این رویکرد بر پایه فرضیهی نمایش خطی (Linear Representation Hypothesis) است؛ یعنی این باور که فعالسازها ترکیبی خطی و پراکنده از مفاهیم هستند.
به نقل از گزارشی در arxiv.org، اسلام زاهر (Eslam Zaher) و همکارانش در ۱۲ مه ۲۰۲۶ پژوهشی را منتشر کردند که در آن ۸۴۴ چکپوینت از جریان باقیمانده (residual-stream) در ۶۸ لایهی مدلهای Gemma 2 2B و 9B تحلیل شده است. یافتههای کلیدی این مطالعه عبارتند از:
- قانون مقیاسپذیری عرض-پراکندگی یک ثابت جهانی نیست، بلکه تابعی از ساختار منیفولد (Manifold) در هر لایه است.
- انحنای بیشتر و بُعد ذاتی بالاتر در یک لایهی خاص، مستقیماً با «کف مجانبی» خطای بازسازی رابطه دارد.
- ضرایب رگرسیون یادگرفتهشده در مدل 2B توانستند بهطور دقیق توانهای مدل 9B را پیشبینی کنند، که نشاندهندهی یک قانون هندسی قابلانتقال است.
این کشف، پارادایم تفسیرپذیری را از یک «بحران منابع» به یک «مسئلهی هندسی» تغییر میدهد. برای متخصصان، این بدان معناست که صرفاً افزایش عرض SAEها، خطای بازسازی را حذف نمیکند، زیرا این خطا ریشه در انحنای ذاتی منیفولد دارد. در واقع، میدان نبرد دیگر بر سر «سقف منابع محدود» نیست، بلکه بر سر یک مرز ریاضیاتی در معماری مدل است.
گام بعدی شما
- بررسی معماریهای غیرخطی برای عبور از دیوار هندسی
- مطالعهی دیکشنریهای آگاه به منیفولد (manifold-aware dictionaries)
- رصد بنچمارکهای جدید برای پیشبینی محدودیتهای تفسیرپذیری در مدلهای بزرگتر
اما تأثیر این محدودیتها بر هزینهی استنتاج در مدلهای نسل بعد، ابعاد پیچیدهتری دارد — به تحلیل ما دربارهی بهینهسازیهای سختافزاری مراجعه کنید.




گفتگو