تصور کنید تمام تلاشهای سالها برای یافتن بهترین روش نمایش جایگاه کلمات در هوش مصنوعی، به یک بنبست ریاضی رسیده باشد. اگر فکر میکنید هنوز راهی برای انقلابی در معماری توجه (Attention) وجود دارد، باید بدانید که سقف ریاضی این تکنولوژی احتمالاً لمس شده است.
در ۱ مه ۲۰۲۶، آلوک (Alok)، پژوهشگر مؤسسهی جین استریت (Jane Street)، تحلیلی تئوریک منتشر کرد که نشان میدهد فضای کدگذاریهای موقعیتی (Positional Encodings) بسیار محدودتر از آن چیزی است که پیشتر تصور میشد. به نقل از این تحلیل، مکانیسم توجه در مدلهای زبانی بهطور ذاتی نسبت به جایگاه کلمات بیتفاوت است و بدون یک روش برای تغییر ضرب داخلی بین پرسوجوها (Queries) و کلیدها (Keys)، مدل نمیتواند تفاوت بین کلمهی اول و آخر یک جمله را تشخیص دهد.
بر اساس مستندات این پژوهش، هر کدگذاری که شرایط خطی بودن، تغییرناپذیری انتقالی و پیوستگی را داشته باشد، باید یک «گروه تکپارامتری» را تشکیل دهد. این محدودیت ریاضی دقیقاً توضیح میدهد چرا استانداردهای فعلی صنعت مانند RoPE (بردار معنایی موقعیتی دورانی - Rotary Positional Embeddings) و NoPE (بدون کدگذاری موقعیتی) به انتخابهای غالب تبدیل شدهاند. RoPE با چرخاندن مؤلفههای بردارها بر اساس زاویهای وابسته به جایگاه آنها (مشابه عقربههای ساعت) عمل میکند.
این تحلیل، احتمالات موجود را به دو دستهی اصلی تقسیم میکند:
- مولدهای قطرپذیر (Diagonalizable generators): اینها باعث ایجاد زوال نمایی و چرخشهایی میشوند که در مدلهای Mamba-3 و RetNet میبینیم. این سیستمها از نسخهی میرا شدهی RoPE برای مدیریت نحوه کاهش اثر یک کلید در طول زمان استفاده میکنند.
- مولدهای نقصدار (Defective generators): اینها جملات چندجملهای ایجاد میکنند؛ چیزی شبیه به حرکت یک پاکِ هواکی روی یخ بدون اصطکاک که در آن جایگاه بهصورت خطی در طول زمان رشد میکند.
همانطور که در تحلیلهای پیشین ما دربارهی قوانین مقیاسپذیری (Scaling Laws) اشاره کردیم، بهینهسازیهای کوچک در لایههای زیرین میتوانند نتایجی کلان داشته باشند. اگرچه کدگذاریهای چندجملهای تا حد زیادی ناشناخته و احتمالاً غیرعملی هستند، اما مسیری تئوریک برای پیادهسازی ALiBi فراهم میکنند که جریمهای خطی به امتیازات توجه اعمال میکند.
این یافته یک سیگنال آرامبخش برای جامعهی یادگیری ماشین است: منطقیترین روشها برای مدیریت جایگاه توالیها احتمالاً کشف شدهاند. این یعنی پژوهشگران میتوانند از جستوجوی یک کدگذاری «کامل» دست بکشند و در عوض بر بهینهسازی روشهای موجود تمرکز کنند.
اما این محدودیتهای ریاضی، مسیر را برای معماریهای غیرخطی هموار میکند — در گزارش بعدی به بررسی جایگزینهای Attention خواهیم پرداخت.
گام بعدی شما
- بررسی دقیقتر پیادهسازی RoPE در مدلهای فعلی برای شناسایی گلوگاههای استنتاج.
- مطالعهی نحوه مدیریت زوال (Decay) در مدلهای Mamba-3 برای درک کاربرد مولدهای قطرپذیر.
- دنبال کردن پژوهشهای مربوط به کدگذاریهای چندجملهای در محیطهای غیرخطی.




گفتگو