تصور کنید تمام برتری مدلهای غولپیکر، نه در حجم دادهها، بلکه در یک ترفند هندسی پنهان باشد. اگر فکر میکنید مقیاسپذیری صرفاً افزودن سختافزار و قدرت محاسباتی است، سخت در اشتباهید.
به نقل از the-decoder.com، پژوهشگران MIT سرانجام رمز هندسی پشت برتری مدلهای بزرگتر را کشف کردند. طبق اعلام این تیم، سازوکار اصلی این پیشرفت، یک فشردهسازی فضایی پیچیده به نام برهمنهی (Superposition) است.
در ۳ مه ۲۰۲۶، مطالعهای که در کنفرانس NeurIPS ۲۰۲۵ ارائه شد، فاش کرد که مدلهای زبانی بزرگ (Large Language Models) در رژیم «برهمنهی قوی» عمل میکنند. بر اساس مستندات این پژوهش، مدلها باید دهها هزار توکن و مفاهیم انتزاعی را در فضای داخلی با تنها چند هزار بُعد جای دهند. برای حل این مشکل، آنها مفاهیم متعدد را در ابعاد یکسان ذخیره میکنند و اجازه میدهند بردار معنایی (Embedding) آنها کمی با هم همپوشانی داشته باشد.
تیم تحقیقاتی شامل Yizhou Liu، Ziming Liu و Jeff Gore، دو وضعیت متفاوت را مقایسه کردند:
- برهمنهی ضعیف: مدل فقط مفاهیم رایج را ذخیره کرده و مفاهیم نادر را نادیده میگیرد؛ در اینجا مقیاسپذیری کاملاً به توزیع دادهها وابسته است.
- برهمنهی قوی: مدل تمام مفاهیم را با پذیرش همپوشانی ذخیره میکند. در این حالت، دو برابر کردن عرض مدل، نرخ خطا را تقریباً نصف میکند.
همانطور که در تحلیلهای پیشین ما دربارهی محدودیتهای مدلهای زبانی بزرگ اشاره کردیم، این الگو در مدلهای مختلف تکرار میشود. این تیم با تحلیل لایههای خروجی مدلهای OPT، GPT-2، Qwen2.5 و Pythia (از ۱۰۰ میلیون تا ۷۰ میلیارد پارامتر)، دریافتند که همهی آنها از برهمنهی قوی استفاده میکنند. توان مقیاسپذیری اندازهگیری شده در این مدلها ۰.۹۱ بود که بهطور شگفتآوری به مقدار تئوریک ۱ نزدیک است؛ عددی که با دادههای مدل Chinchilla متعلق به Deepmind (۰.۸۸) همخوانی دارد.
این کشف پاسخ دقیقی به این پرسش میدهد که آیا قوانین مقیاسپذیری (Scaling Laws) یک روز شکست میخورند یا خیر. محققان استدلال میکنند که وقتی عرض مدل با اندازه واژگان آن برابر شود، دیگر نیازی به همپوشانی نیست و مقیاسپذیری متوقف میشود. اما این تراکم مفاهیم، مانعی بزرگ برای تفسیرپذیری مکانیکی (Mechanistic Interpretability) ایجاد میکند.
اما این پیچیدگی هندسی، کابوسی برای متخصصان امنیت است — به بررسی ما دربارهی چالشهای تفسیرپذیری در مدلهای نسل بعد مراجعه کنید.
گام بعدی شما
- بررسی رابطه بین عرض مدل (Width) و اندازه واژگان (Vocabulary Size) در مدلهای بازمتن.
- مطالعه مقالات مربوط به تفسیرپذیری مکانیکی برای درک نحوه استخراج مفاهیم از برهمنهی.
- دنبال کردن گزارشهای NeurIPS ۲۰۲۵ برای یافتن روشهای جدید کاهش همپوشانی بدون افت عملکرد.




گفتگو