اگر تصور میکنید فاصله کیفی میان مدلهای انتشار زبانی (Diffusion Language Models یا DLM) و مدلهای خودرگرسیونی صرفاً به مقیاس پارامترها مربوط است، باید در این باور تجدیدنظر کنید. مشکل اصلی اینجاست که مدلهای موازی در درک وابستگیهای پیچیده متنی شکست میخورند و همین امر، دقت آنها را به شدت کاهش میدهد.
مدلهای انتشار زبانی با حذف تولید توکنبهتوکن و جایگزینی آن با فرآیند بازسازی تدریجی (denoising)، سرعت استنتاج را به شدت افزایش میدهند. اما این سرعت به بهای از دست رفتن انسجام معنایی تمام میشود. همانطور که در بررسیهای پیشین ما دربارهی بهینهسازی استنتاج در مدلهای بازمتن اشاره کردیم، چالش همیشگی این حوزه، ایجاد تعادل میان سرعت پردازش موازی و دقت خروجی است.
به نقل از گزارش مورخ ۹ ژوئن ۲۰۲۶ در arxiv.org، نویسندگان این پژوهش سه عامل اصلی را در ایجاد این شکاف عملکرد شناسایی کردند: ظرفیت مدل، وابستگی توکنها و مسئله ناپایداری (invariance). برای رفع این چالشها، چارچوب Uni-E (Unified Energy) طراحی شده است که از دو جزء کلیدی تشکیل شده است:
- Inv-E (Invariant Energy): مدیریت مسئله ناپایداری از طریق یک تخمینگر بهینه.
- Ind-E (Independent Energy): رسیدگی به وابستگیهای متقابل توکنها.
بر اساس مستندات این پروژه، ویژگی متمایز Uni-E این است که میتواند محاسبات را بهطور دقیق انجام دهد، بدون اینکه نیاز به تخمینهای مبتنی بر نمونهبرداری (sampling-based partition estimation) داشته باشد. این یعنی مدل میتواند بدون افزایش هزینههای محاسباتی، در هر مقیاسی گسترش یابد.
از منظر فنی، این دستاورد نشان میدهد که محدودیت مدلهای انتشار زبانی نه در اندازه مدل، بلکه در نقص بنیادین روشهای تخمین انرژی در طول فرآیند حذف نویز بود. با انتقال به سمت محاسبات دقیق، نویزهای استوکاستیکی که در روشهای قدیمی وجود داشت، حذف شدهاند.
گام بعدی شما
- بررسی نحوه پیادهسازی لایههای Inv-E و Ind-E در مدلهای غیرخودرگرسیونی.
- رصد ادغام این چارچوب در نسل بعدی ترنسفورمرهای غیرخودرگرسیونی برای کاهش تأخیر استنتاج در محیطهای عملیاتی.
- تحلیل اثر این متد بر کاهش هزینههای GPU در استقرار مدلهای زبانی موازی.
اما تأثیر این تحول بر معماری سختافزاری استنتاج حتی پیچیدهتر است؛ برای درک این موضوع به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.
گفتگو