تصور کنید یک مدل کوچک با معماری GPT-2 بتواند در تصمیمگیریهای آنلاین، مدلهای غولپیکری مثل Qwen-3-14B را شکست دهد. اگر هنوز تصور میکنید تنها راه رسیدن به هوشمندی، افزایش تعداد پارامترهاست، باید این نتایج را بررسی کنید.
به نقل از گزارش arxiv.org در ۱۲ مه ۲۰۲۶، رمز این موفقیت در استفاده از بافتهای نهفته پیوسته (Continuous Latent Contexts) است. این سازوکار به مدلها اجازه میدهد بدون بهروزرسانی پارامترها، خود را با بازخوردهای محیطی در بازههای زمانی طولانی تطبیق دهند.
اکثر مدلهای زبانی بزرگ (LLM) در یادگیری درونبافتی ایستا مهارت دارند، اما در یادگیری آنلاین — جایی که مدل باید رفتار خود را بر اساس جریانی از بازخوردها تغییر دهد — شکست میخورند. همانطور که در تحلیل قبلی ما دربارهی خطاهای کالیبراسیون در مسیرهای مسیریابی اشاره کردیم، نیاز به نمایشهای فشرده و ماندگار از وضعیتهای آموختهشده برای جایگزینی پنجرههای متنی عظیم، یک ضرورت فنی است.
طبق مستندات این پژوهش، محققان دو رویه بنیادی یعنی الگوریتم اکثریت وزنی (Weighted Majority Algorithm) و یادگیری کیو (Q-learning) را از طریق ذخیره وضعیتهای الگوریتمیک به صورت ترکیبات خطی از بردارهای معنایی (Embeddings) پیاده کردند. نکات فنی برجسته این معماری عبارتند از:
- استفاده از تعداد محدودی توکن بافت نهفته برای حفظ یک وضعیت ماندگار.
- بهکارگیری یک هدف چند-برنامهای (Multi-curriculum Objective) برای اجتناب از نظارت مستقیم بر وضعیتهای نهفته.
- استفاده از معماری ترنسفورمر با عمق ثابت (Constant-depth Transformer) برای بهروزرسانی بهینه وضعیت.
این یافته، باور رایج صنعت به این موضوع که مقیاسپذیری پارامترها تنها راه بهبود تطبیق بلندمدت است را به چالش میکشد. با تبدیل فضای نهفته به یک حافظه پویا برای وضعیتهای الگوریتمیک، ثابت شد که بهرهوری معماری میتواند بر اندازه خام مدل غلبه کند. برای جامعه فنی، این به معنای چرخش به سمت معماریهای «آگاه به وضعیت» (State-aware) است که بدون سربار گسترش پنجره متنی، در لحظه یاد میگیرند.
گام بعدی شما
- رصد کنید که آیا تکنیکهای بافت نهفته در نسل بعدی عاملهای (Agents) خودمختار برای کاهش هزینههای حافظه ادغام میشوند یا خیر.
- بررسی کنید که آیا این بهرهوری در مجموعهدادههای واقعی و غیرسنتتیک نیز تکرار میشود.
- مطالعه سازوکار ذخیرهسازی وضعیت در فضای نهفته برای بهینهسازی مدلهای لبه.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو