حل مشکل «رانش توجه» برای دو برابر کردن نرخ پذیرش در رمزگشایی گمانه‌زن

اگر در حال بهینه‌سازی استنتاج مدل‌های زبانی هستید، احتمالاً با شبحی به نام «رانش توجه» (Attention Drift) می‌جنگید. این پدیده باعث می‌شود مدل‌های پیش‌بین به‌تدریج ورودی اصلی را فراموش کرده و تنها بر اساس توکن‌های تولیدشده‌ی خود تصمیم بگیرند.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی بهینه‌سازی استنتاج اشاره کردیم، رمزگشایی گمانه‌زن (Speculative Decoding) برای افزایش سرعت، از یک مدل کوچک‌تر به عنوان پیش‌بین استفاده می‌کند تا توکن‌های احتمالی را حدس بزند و مدل هدف آن‌ها را تأیید کند. اما طبق اعلام پژوهشگران در مقاله‌ای که در ۱۲ مه ۲۰۲۶ در arxiv.org منتشر شد، پایداری این زنجیره در کانتکست‌های بلند یا هنگام تغییر قالب ورودی به‌شدت کاهش می‌یابد.

بر اساس مستندات این مطالعه، در مدل‌هایی مانند EAGLE3 و MTP heads، مقدار حالت پنهان (hidden state) با افزایش عمق زنجیره به‌طور یکنواخت رشد می‌کند. این اتفاق به دلیل وجود یک مسیر باقی‌مانده (residual path) بدون نرمال‌سازی رخ می‌دهد که باعث می‌شود مدل پیش‌بین به‌جای عمل به عنوان یک پیش‌بین مستقل، شبیه به لایه‌های اضافی ترنسفورمر رفتار کند. برای رفع این نقص، تیم پژوهشی دو تغییر معماری را پیشنهاد دادند:

اعمال Post-norm روی حالت‌های پنهان مدل پیش‌بین.
استفاده از RMSNorm برای هر حالت پنهان پس از دریافت حالت‌های مدل هدف.

نتایج این مداخلات خیره‌کننده است: نرخ پذیرش توکن‌ها در قالب‌های تغییریافته ۲ برابر شد، در کانتکست‌های بلند ۱.۱۸ برابر افزایش یافت و در هفت بنچمارک استاندارد ریاضی و کدنویسی، رشد ۱.۱۰ برابری ثبت شد.

این کشف، دیدگاه ما را نسبت به مدل‌های پیش‌بین تغییر می‌دهد؛ آن‌ها دیگر صرفاً پیش‌بین‌های اتورگرسیو نیستند، بلکه مؤلفه‌هایی هستند که می‌توانند فضای نهفته‌ی مدل هدف را به‌طور ناخواسته تغییر دهند. این بدان معناست که گلوگاه سرعت در استنتاج، لزوماً ظرفیت مدل نیست، بلکه پایداری عددی است.

گام بعدی شما

بررسی ادغام تکنیک‌های نرمال‌سازی جدید در فریم‌ورک‌های استنتاجی مانند vLLM یا TensorRT-LLM.
پایش اثر این تغییرات بر کاهش نرخ خطای مدل‌های پیش‌بین در تسک‌های با کانتکست بسیار بلند.
ارزیابی احتمال وقوع رانش توجه در معماری‌های غیر-اتورگرسیو.

اما این تنها بخشی از چالش‌های استنتاج است؛ اثر این تغییرات بر معماری‌های غیر-اتورگرسیو را در گزارش بعدی بررسی خواهیم کرد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

اعمال Post-norm روی حالت‌های پنهان مدل پیش‌بین.
استفاده از RMSNorm برای هر حالت پنهان پس از دریافت حالت‌های مدل هدف.

گام بعدی شما

بررسی ادغام تکنیک‌های نرمال‌سازی جدید در فریم‌ورک‌های استنتاجی مانند vLLM یا TensorRT-LLM.
پایش اثر این تغییرات بر کاهش نرخ خطای مدل‌های پیش‌بین در تسک‌های با کانتکست بسیار بلند.
ارزیابی احتمال وقوع رانش توجه در معماری‌های غیر-اتورگرسیو.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

حل مشکل «رانش توجه» برای دو برابر کردن نرخ پذیرش در رمزگشایی گمانه‌زن

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

حل مشکل «رانش توجه» برای دو برابر کردن نرخ پذیرش در رمزگشایی گمانه‌زن

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

حل مشکل «رانش توجه» برای دو برابر کردن نرخ پذیرش در رمزگشایی گمانه‌زن

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

حل مشکل «رانش توجه» برای دو برابر کردن نرخ پذیرش در رمزگشایی گمانه‌زن

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران