اگر در حال بهینهسازی استنتاج مدلهای زبانی هستید، احتمالاً با شبحی به نام «رانش توجه» (Attention Drift) میجنگید. این پدیده باعث میشود مدلهای پیشبین بهتدریج ورودی اصلی را فراموش کرده و تنها بر اساس توکنهای تولیدشدهی خود تصمیم بگیرند.
همانطور که در تحلیلهای پیشین ما دربارهی بهینهسازی استنتاج اشاره کردیم، رمزگشایی گمانهزن (Speculative Decoding) برای افزایش سرعت، از یک مدل کوچکتر به عنوان پیشبین استفاده میکند تا توکنهای احتمالی را حدس بزند و مدل هدف آنها را تأیید کند. اما طبق اعلام پژوهشگران در مقالهای که در ۱۲ مه ۲۰۲۶ در arxiv.org منتشر شد، پایداری این زنجیره در کانتکستهای بلند یا هنگام تغییر قالب ورودی بهشدت کاهش مییابد.
بر اساس مستندات این مطالعه، در مدلهایی مانند EAGLE3 و MTP heads، مقدار حالت پنهان (hidden state) با افزایش عمق زنجیره بهطور یکنواخت رشد میکند. این اتفاق به دلیل وجود یک مسیر باقیمانده (residual path) بدون نرمالسازی رخ میدهد که باعث میشود مدل پیشبین بهجای عمل به عنوان یک پیشبین مستقل، شبیه به لایههای اضافی ترنسفورمر رفتار کند. برای رفع این نقص، تیم پژوهشی دو تغییر معماری را پیشنهاد دادند:
- اعمال Post-norm روی حالتهای پنهان مدل پیشبین.
- استفاده از RMSNorm برای هر حالت پنهان پس از دریافت حالتهای مدل هدف.
نتایج این مداخلات خیرهکننده است: نرخ پذیرش توکنها در قالبهای تغییریافته ۲ برابر شد، در کانتکستهای بلند ۱.۱۸ برابر افزایش یافت و در هفت بنچمارک استاندارد ریاضی و کدنویسی، رشد ۱.۱۰ برابری ثبت شد.
این کشف، دیدگاه ما را نسبت به مدلهای پیشبین تغییر میدهد؛ آنها دیگر صرفاً پیشبینهای اتورگرسیو نیستند، بلکه مؤلفههایی هستند که میتوانند فضای نهفتهی مدل هدف را بهطور ناخواسته تغییر دهند. این بدان معناست که گلوگاه سرعت در استنتاج، لزوماً ظرفیت مدل نیست، بلکه پایداری عددی است.
گام بعدی شما
- بررسی ادغام تکنیکهای نرمالسازی جدید در فریمورکهای استنتاجی مانند vLLM یا TensorRT-LLM.
- پایش اثر این تغییرات بر کاهش نرخ خطای مدلهای پیشبین در تسکهای با کانتکست بسیار بلند.
- ارزیابی احتمال وقوع رانش توجه در معماریهای غیر-اتورگرسیو.
اما این تنها بخشی از چالشهای استنتاج است؛ اثر این تغییرات بر معماریهای غیر-اتورگرسیو را در گزارش بعدی بررسی خواهیم کرد.




گفتگو