سقف ریاضی مدل‌های زبانی؛ پایان جست‌وجو برای کدگذاری موقعیتی ایده‌آل

تصور کنید تمام تلاش‌های سال‌ها برای یافتن بهترین روش نمایش جایگاه کلمات در هوش مصنوعی، به یک بن‌بست ریاضی رسیده باشد. اگر فکر می‌کنید هنوز راهی برای انقلابی در معماری توجه (Attention) وجود دارد، باید بدانید که سقف ریاضی این تکنولوژی احتمالاً لمس شده است.

در ۱ مه ۲۰۲۶، آلوک (Alok)، پژوهشگر مؤسسه‌ی جین استریت (Jane Street)، تحلیلی تئوریک منتشر کرد که نشان می‌دهد فضای کدگذاری‌های موقعیتی (Positional Encodings) بسیار محدودتر از آن چیزی است که پیش‌تر تصور می‌شد. به نقل از این تحلیل، مکانیسم توجه در مدل‌های زبانی به‌طور ذاتی نسبت به جایگاه کلمات بی‌تفاوت است و بدون یک روش برای تغییر ضرب داخلی بین پرس‌وجوها (Queries) و کلیدها (Keys)، مدل نمی‌تواند تفاوت بین کلمه‌ی اول و آخر یک جمله را تشخیص دهد.

بر اساس مستندات این پژوهش، هر کدگذاری که شرایط خطی بودن، تغییرناپذیری انتقالی و پیوستگی را داشته باشد، باید یک «گروه تک‌پارامتری» را تشکیل دهد. این محدودیت ریاضی دقیقاً توضیح می‌دهد چرا استانداردهای فعلی صنعت مانند RoPE (بردار معنایی موقعیتی دورانی - Rotary Positional Embeddings) و NoPE (بدون کدگذاری موقعیتی) به انتخاب‌های غالب تبدیل شده‌اند. RoPE با چرخاندن مؤلفه‌های بردارها بر اساس زاویه‌ای وابسته به جایگاه آن‌ها (مشابه عقربه‌های ساعت) عمل می‌کند.

این تحلیل، احتمالات موجود را به دو دسته‌ی اصلی تقسیم می‌کند:

مولدهای قطرپذیر (Diagonalizable generators): این‌ها باعث ایجاد زوال نمایی و چرخش‌هایی می‌شوند که در مدل‌های Mamba-3 و RetNet می‌بینیم. این سیستم‌ها از نسخه‌ی میرا شده‌ی RoPE برای مدیریت نحوه کاهش اثر یک کلید در طول زمان استفاده می‌کنند.
مولدهای نقص‌دار (Defective generators): این‌ها جملات چندجمله‌ای ایجاد می‌کنند؛ چیزی شبیه به حرکت یک پاکِ هواکی روی یخ بدون اصطکاک که در آن جایگاه به‌صورت خطی در طول زمان رشد می‌کند.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی قوانین مقیاس‌پذیری (Scaling Laws) اشاره کردیم، بهینه‌سازی‌های کوچک در لایه‌های زیرین می‌توانند نتایجی کلان داشته باشند. اگرچه کدگذاری‌های چندجمله‌ای تا حد زیادی ناشناخته و احتمالاً غیرعملی هستند، اما مسیری تئوریک برای پیاده‌سازی ALiBi فراهم می‌کنند که جریمه‌ای خطی به امتیازات توجه اعمال می‌کند.

این یافته یک سیگنال آرام‌بخش برای جامعه‌ی یادگیری ماشین است: منطقی‌ترین روش‌ها برای مدیریت جایگاه توالی‌ها احتمالاً کشف شده‌اند. این یعنی پژوهشگران می‌توانند از جست‌وجوی یک کدگذاری «کامل» دست بکشند و در عوض بر بهینه‌سازی روش‌های موجود تمرکز کنند.

اما این محدودیت‌های ریاضی، مسیر را برای معماری‌های غیرخطی هموار می‌کند — در گزارش بعدی به بررسی جایگزین‌های Attention خواهیم پرداخت.

گام بعدی شما

بررسی دقیق‌تر پیاده‌سازی RoPE در مدل‌های فعلی برای شناسایی گلوگاه‌های استنتاج.
مطالعه‌ی نحوه مدیریت زوال (Decay) در مدل‌های Mamba-3 برای درک کاربرد مولدهای قطرپذیر.
دنبال کردن پژوهش‌های مربوط به کدگذاری‌های چندجمله‌ای در محیط‌های غیرخطی.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

این تحلیل، احتمالات موجود را به دو دسته‌ی اصلی تقسیم می‌کند:

مولدهای قطرپذیر (Diagonalizable generators): این‌ها باعث ایجاد زوال نمایی و چرخش‌هایی می‌شوند که در مدل‌های Mamba-3 و RetNet می‌بینیم. این سیستم‌ها از نسخه‌ی میرا شده‌ی RoPE برای مدیریت نحوه کاهش اثر یک کلید در طول زمان استفاده می‌کنند.
مولدهای نقص‌دار (Defective generators): این‌ها جملات چندجمله‌ای ایجاد می‌کنند؛ چیزی شبیه به حرکت یک پاکِ هواکی روی یخ بدون اصطکاک که در آن جایگاه به‌صورت خطی در طول زمان رشد می‌کند.

گام بعدی شما

بررسی دقیق‌تر پیاده‌سازی RoPE در مدل‌های فعلی برای شناسایی گلوگاه‌های استنتاج.
مطالعه‌ی نحوه مدیریت زوال (Decay) در مدل‌های Mamba-3 برای درک کاربرد مولدهای قطرپذیر.
دنبال کردن پژوهش‌های مربوط به کدگذاری‌های چندجمله‌ای در محیط‌های غیرخطی.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سقف ریاضی مدل‌های زبانی؛ پایان جست‌وجو برای کدگذاری موقعیتی ایده‌آل

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سقف ریاضی مدل‌های زبانی؛ پایان جست‌وجو برای کدگذاری موقعیتی ایده‌آل

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سقف ریاضی مدل‌های زبانی؛ پایان جست‌وجو برای کدگذاری موقعیتی ایده‌آل

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سقف ریاضی مدل‌های زبانی؛ پایان جست‌وجو برای کدگذاری موقعیتی ایده‌آل

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران