چرا مدل‌های ترکیبی Olmo در کپی‌برداری دقیق از ترنسفورمرها ضعیف‌ترند؟

اگر به دنبال مدلی هستید که تفاوت میان یک توصیف دقیق و یک تکرار مکانیکی را بفهمد، باید نگاهی به معماری‌های هیبریدی بیندازید. این مدل‌ها در حال شکستن انحصار ترنسفورمرها در پیش‌بینی توکن‌های دارای بار معنایی هستند.

طبق تحلیل فنی منتشرشده در ۲۵ ژوئن ۲۰۲۶ (arXiv:2606.20936)، مقایسه‌ای جامع میان Olmo Hybrid و مدل ترنسفورمر-محور Olmo 3 نشان می‌دهد که برتری مدل ترکیبی به شدت به نوع اطلاعات پردازش‌شده وابسته است. برای سال‌ها، معماری ترنسفورمر (Transformer) به دلیل مکانیسم توجه (Attention) استاندارد صنعت بوده است. این مکانیسم اجازه می‌دهد مدل با دقت کامل به هر توکن قبلی نگاه کند. در این ساختار، هر لایه از توجه استفاده می‌کند تا وزن مربوط به میزان مرتبط بودن هر توکن قدیمی با پیش‌بینی فعلی را محاسبه کند. اما این قدرت، هزینه‌ی محاسباتی سنگینی دارد؛ زیرا با افزایش طول ورودی، پیچیدگی افزایش می‌یابد چون هر توکن باید با تمام توکن‌های قبلی مقایسه شود. علاوه بر این، اگرچه توجه در بازیابی و تجمیع اطلاعات بسیار قوی است، اما در نمایش اطلاعاتی که به صورت متوالی در طول زمان تکامل می‌یابند، دچار مشکل می‌شود.

همان‌طور که در تحلیل‌های قبلی ما درباره‌ی بهینه‌سازی حافظه‌ی مدل‌ها اشاره کردیم، مدل‌های هیبریدی تلاش می‌کنند یک راه میانه پیدا کنند. آن‌ها این کار را با حفظ تعداد کمی از لایه‌های توجه و جایگزینی مابقی لایه‌ها با لایه‌های بازگشتی (Recurrent Layers) انجام می‌دهند. برخلاف لایه توجه، یک لایه بازگشتی توکن‌ها را از چپ به راست می‌خواند و یک حافظه با اندازه ثابت را حمل می‌کند. این لایه هر توکن جدید را در حین پیشروی در حافظه ادغام می‌کند، که تضمین می‌کند هزینه پردازش هر توکن، فارغ از طول ورودی، ثابت و مسطح باقی بماند. با این حال، این حافظه فشرده و گم‌شونده (Lossy) است؛ این بدان معناست که لایه‌های بازگشتی نمی‌توانند مانند مکانیسم توجه، دقیقاً به یک توکن خاص از گذشته با دقت کامل دسترسی پیدا کنند، اما در عوض برای نگه داشتن یک گزارش جاری از اطلاعات در حال تغییر بسیار مناسب‌تر هستند.

به گزارش این مطالعه، دو مدل ۷ میلیارد پارامتری به گونه‌ای ساخته شدند که در تمام ابعاد خارج از معماری، تا حد ممکن مشابه باشند. آن‌ها در حجم و نوع داده‌ها، توکن‌ساز (Tokenizer) و دستورالعمل‌های آموزش (Training Recipes) کاملاً با یکدیگر مطابقت داشتند. این محیط کنترل‌شده تضمین می‌کند که تفاوت‌های مشاهده‌شده در عملکرد، نتیجه مستقیم خود معماری‌ها است و نه ناشی از نابرابری‌های احتمالی در فرآیند آموزش. برای جداسازی این نقاط قوت و ضعف، تیم تحقیق هر دو مدل را با متون متنوعی تغذیه کردند که شامل مدخلات ویکی‌پدیا، کتاب‌ها، مقالات علمی، متون خبری و متون ساختاریافته مانند کدهای پایتون، HTML و LaTeX بود.

برتری در کلمات محتوایی

بر اساس مستندات، خیره‌کننده‌ترین یافته این است که Olmo Hybrid در پیش‌بینی «کلمات محتوایی» — یعنی اسم‌ها، فعل‌ها و صفت‌هایی که حامل معنا هستند و تعریف می‌کنند یک جمله درباره چه چیزی است — به‌طور قابل‌توجهی بهتر عمل می‌کند. پژوهشگران برای سنجش این موضوع از «شکاف زیان» (Loss Gap) استفاده کردند؛ یعنی تفاوتی که در میزان خطای پیش‌بینی میان دو مدل وجود دارد. در این تحلیل، یک شکاف مثبت نشان‌دهنده این است که مدل هیبریدی توکن بعدی واقعی را با دقت بیشتری پیش‌بینی کرده است.

کلمات محتوایی: مدل هیبریدی در این توکن‌ها شکاف زیانی در حدود ۰.۰۴ را نشان داد.
کلمات تابعی: برای توکن‌های دستوری مانند «the»، «of» و «is»، این شکاف کاهش یافت و به حدود ۰.۰۲ رسید.
دسته‌های تخصصی: برتری مدل هیبریدی به‌ویژه در پیش‌بینی قیدها و صفت‌ها بسیار چشم‌گیرتر بود.
وجودهای دستوری: برخی دسته‌های کلمات تابعی، مانند کلمه «there»، نیز برتری قابل‌توجهی را برای مدل هیبریدی نشان دادند.

به زبان ساده، لبه‌ی رقابتی مدل هیبریدی در کلماتی است که معنا منتقل می‌کنند و کمترین برتری را در کلمات دستوری دارد که هر مدلی می‌تواند آن‌ها را تقریباً از روی قواعد نحوی (Syntax) حدس بزند. تیم تحقیق برای اطمینان از اینکه این نتایج به دلیل نادر بودن برخی دسته‌ها یا تکرار توکن‌ها منحرف نشده‌اند، این الگوها را با استفاده از یک تحلیل رگرسیون که در آن سایر عوامل ثابت نگه داشته شده بود، تایید کردند.

نقاط پیروزی ترنسفورمرها

برتری مدل هیبریدی در دو سناریوی خاص به‌طور کامل از بین می‌رود: تکرار واژه به واژه (Verbatim Repetition) و تطبیق ساختاری. وقتی یک توکن صرفاً توالی متنی را تکرار می‌کند که پیش‌تر در ورودی حضور داشته است — که به عنوان n-grams تکراری شناسایی می‌شوند — برتری مدل هیبریدی به صفر نزدیک می‌شود. در واقع، هرچه طول بخش تکراری متن بیشتر شود، فاصله عملکردی مدل هیبریدی با ترنسفورمر کمتر می‌شود.

دلیل این اتفاق این است که حافظه در لایه‌های بازگشتی فشرده است؛ بنابراین آن‌ها نمی‌توانند مانند مکانیسم توجه ترنسفورمر، برای یافتن یک توکن دقیق و واژه به واژه، به‌طور بهینه «به عقب بازگردند». قدرت ترنسفورمر دقیقاً در جایی است که پاسخ درست «همین‌جاست و فقط باید به آن نگاه کرد».

نقطه شکست دیگر برای مدل هیبریدی، پیش‌بینی براکت‌های پایانی (Closing Braces) بود. در حالی که مدل هیبریدی در مدیریت براکت‌های شروع مشکلی نداشت، اما وقتی نوبت به بستن براکت می‌رسید، برتری‌اش از بین می‌رفت. این الگو در تمامی زبان‌های طبیعی، کدهای برنامه‌نویسی و زبان‌های مارک‌آپ مشاهده شد. از آنجایی که مکانیسم توجه برای نمایش تطبیق براکت‌ها (Bracket Matching) شناخته شده و کافی است، این یافته نشان می‌دهد که توجه به تنهایی برای پیش‌بینی براکت‌های پایانی کفایت می‌کند.

نمودار مقایسه دقت پیش‌بینی مدل ترکیبی برای توکن‌های مختلف

آزمایش در مقیاس بزرگ

برای اعتبارسنجی این یافته‌ها و بررسی اینکه این تفاوت‌ها چگونه در طول آموزش ظاهر می‌شوند، تیم تحقیق نسخه‌های ۱ میلیارد پارامتری از سه معماری مختلف را مورد آزمایش قرار داد: یک ترنسفورمر خالص، یک مدل هیبریدی و یک شبکه عصبی بازگشتی (RNN) خالص که هیچ لایه توجهی نداشت. آن‌ها منحنی‌های زیان توکن را در نقاط بازرسی (Checkpoints) که با روش WSD-annealed بهینه شده بودند، تحلیل کردند.

توکن‌های معنا‌دار: در کلمات محتوایی که تکراری نبودند، هم مدل هیبریدی و هم RNN خالص از ترنسفورمر پیشی گرفتند. در این دسته، مدل هیبریدی در مجموع بهترین عملکرد را داشت.
توکن‌های تکراری: مدل RNN خالص از هر دو مدل ترنسفورمر و هیبریدی عقب ماند، زیرا هیچ مکانیسم توجهی برای تسهیل فرآیند کپی‌برداری از متون قبلی نداشت.
عملکرد کلی: این تحلیل‌های تفکیک‌شده (Filtered Token Losses) تفاوت‌های ظریفی را در توانایی کپی‌برداری و پردازش کلمات محتوایی آشکار کرد که در غیر این صورت، در یک معیار استاندارد «میانگین زیان» (Average Loss) نامرئی می‌ماندند.

این داده‌ها تایید می‌کند که یک «میانگین زیان» واحد — یعنی خطای متوسط مدل در تمامی توکن‌ها — برای مقایسه معماری‌ها بیش از حد کلی و غیردقیق است. توسعه‌دهندگان با استفاده از زیان‌های تفکیک‌شده می‌توانند دقیقاً تشخیص دهند مدل در کجا شکست می‌خورد؛ برای مثال آیا مشکل از استدلال منطقی است یا ناتوانی در بازیابی حافظه.

پیامدهای معماری مدل

از دیدگاه فنی، این جابجایی نحوه بنچمارک پیش‌آموزش (Pretraining) را تغییر می‌دهد. ما در حال حرکت از امتیازات کل‌نگر به سمت منحنی‌های زیان «قابلیت-محور» (Capability-specific) هستیم. لایه‌های بازگشتی در مدل‌های هیبریدی، گزارشی جاری از اطلاعات در حال تکامل ارائه می‌دهند و قابلیت‌های ردیابی وضعیت (State-tracking) را فراهم می‌کنند که به‌ویژه برای توکن‌های کلاس-باز (Open-class tokens) مفید است.

اگر هدف ساخت مدلی است که ظرافت‌های زبانی و بسترهای متغیر در طول متن را بفهمد، مسیر بهینه‌سازی به سمت هیبریدیت است. اما اگر هدف بازیابی کامل اطلاعات و پایبندی سخت‌گیرانه به ساختارهای صلب است، مکانیسم توجه همچنان پادشاه است. پژوهشگران معتقدند بهترین معماری‌های هیبریدی از طریق درک دقیق توکن-به-توکن از اینکه هر مؤلفه چه کاری را به‌خوبی انجام می‌دهد، ظهور خواهند کرد. نسل بعدی مدل‌ها احتمالاً ترکیبی آگاهانه خواهند بود که برای ایجاد تعادل میان این دو قدرت متضاد تنظیم شده‌اند.

برای مشاهده عملی این تفاوت‌های معماری، پژوهشگران جامعه هوش مصنوعی را تشویق می‌کنند تا آرتیفکت‌های باز Olmo 3 و Olmo Hybrid را بررسی کرده و ارزیابی‌های زیان تفکیک‌شده را در آزمایش‌های پیش‌آموزش خود به کار بگیرند.

گام بعدی شما

اگر در حال آموزش مدل هستید، به‌جای تکیه بر Average Loss، از Filtered Token Loss برای شناسایی نقاط کور مدل در کپی‌برداری یا استدلال استفاده کنید.
آرتیفکت‌های باز Olmo 3 و Olmo Hybrid را بررسی کنید تا تاثیر لایه‌های بازگشتی بر توکن‌های معنا‌دار را در داده‌های خود ببینید.

اما تاثیر این معماری‌ها بر هزینه استنتاج در مقیاس میلیاردها کاربر، ابعاد متفاوتی دارد — به تحلیل ما درباره‌ی بهینه‌سازی‌های KV Cache مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.