اگر روی پردازش اسناد طولانی کار میکنید، میدانید که گلوگاه اصلی همواره توازن میان دقت بازیابی اطلاعات و مصرف حافظه است. تصور کنید مجبور باشید برای خواندن یک کتاب، هر صفحه را هزار بار مرور کنید تا جزئیات را فراموش نکنید؛ این دقیقاً همان هزینهای است که مدلهای فعلی میپردازند.
طبق گزارش ۱۶ ژوئن ۲۰۲۶ در وبسایت arxiv.org، معماری Parallel Hybrid Architecture (PHA) این مشکل را با یک رویکرد جسورانه حل کرده است. این مدل بهجای استفاده از یک زنجیره متوالی، از شاخههای تخصصی موازی استفاده میکند تا مصرف حافظه را در توالیهای طولانی تا ۴۰٪ نسبت به مدلهای مبتنی بر توجه (Attention) کاهش دهد.
همانطور که در تحلیل قبلی ما دربارهی مدلهای استدلالی اشاره کردیم، چالش اصلی همواره مقیاسپذیری بوده است. PHA با ترکیب سه مسیر مستقل، این چالش را مدیریت میکند:
- فضاهای حالت درگاهدار (Gated State Spaces - GSS): برای درک بافت کلی و جهانی متن.
- توجه پرسوجوی گروهی (Grouped Query Attention - GQA): برای بازیابی دقیق و انتخابی اطلاعات.
- شبکههای پیشخور (Feed-Forward Networks - FFNs): برای پردازشهای تکمیلی.
دادههای این گزارش نشان میدهد که نسخه ۱۲۵ میلیون پارامتری PHA در مجموعهداده WikiText-103 به عدد ۱۶.۵۱ در معیار پرپلکسیتی (Perplexity) رسیده است. این عدد از مدل Hedgehog (۱۶.۷۰) و H3-125M (۲۳.۷۰) بهتر است. همچنین، افزایش مقیاس مدل به ۱۸۰ میلیون پارامتر، سرعت پردازش (Throughput) را ۲۴٪ افزایش داد، بدون آنکه دقت مدل افت کند.
به نقل از مستندات این پژوهش، این تغییر پارادایم ثابت میکند که آیندهی مدلهای زبانی بزرگ (LLM) نه در انتخاب بین مدلهای حالت-فضا (SSM) و ترانسفورمرها، بلکه در ارکستراسیون آنها به صورت یک مجموعه متنوع است.
گام بعدی شما
- بررسی نحوه ادغام استراتژی میکس موازی PHA در چارچوبهای موجود Mixture-of-Experts (MoE).
- آزمایش مدلهای SSM-Hybrid برای کاهش هزینهی استنتاج در پروژههای با پنجره متنی بالا.
- رصد مقیاسپذیری این معماری در مدلهایی با میلیاردها پارامتر.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است؛ اثر این معماری بر نیاز به GPUها را در گزارش بعدی بررسی خواهیم کرد.




گفتگو