چگونه معماری PHA مصرف حافظه در متون طولانی را ۴۰٪ کاهش داد؟

اگر روی پردازش اسناد طولانی کار می‌کنید، می‌دانید که گلوگاه اصلی همواره توازن میان دقت بازیابی اطلاعات و مصرف حافظه است. تصور کنید مجبور باشید برای خواندن یک کتاب، هر صفحه را هزار بار مرور کنید تا جزئیات را فراموش نکنید؛ این دقیقاً همان هزینه‌ای است که مدل‌های فعلی می‌پردازند.

طبق گزارش ۱۶ ژوئن ۲۰۲۶ در وب‌سایت arxiv.org، معماری Parallel Hybrid Architecture (PHA) این مشکل را با یک رویکرد جسورانه حل کرده است. این مدل به‌جای استفاده از یک زنجیره متوالی، از شاخه‌های تخصصی موازی استفاده می‌کند تا مصرف حافظه را در توالی‌های طولانی تا ۴۰٪ نسبت به مدل‌های مبتنی بر توجه (Attention) کاهش دهد.

همان‌طور که در تحلیل قبلی ما درباره‌ی مدل‌های استدلالی اشاره کردیم، چالش اصلی همواره مقیاس‌پذیری بوده است. PHA با ترکیب سه مسیر مستقل، این چالش را مدیریت می‌کند:

فضاهای حالت درگاه‌دار (Gated State Spaces - GSS): برای درک بافت کلی و جهانی متن.
توجه پرس‌وجوی گروهی (Grouped Query Attention - GQA): برای بازیابی دقیق و انتخابی اطلاعات.
شبکه‌های پیش‌خور (Feed-Forward Networks - FFNs): برای پردازش‌های تکمیلی.

داده‌های این گزارش نشان می‌دهد که نسخه ۱۲۵ میلیون پارامتری PHA در مجموعه‌داده WikiText-103 به عدد ۱۶.۵۱ در معیار پرپلکسیتی (Perplexity) رسیده است. این عدد از مدل Hedgehog (۱۶.۷۰) و H3-125M (۲۳.۷۰) بهتر است. همچنین، افزایش مقیاس مدل به ۱۸۰ میلیون پارامتر، سرعت پردازش (Throughput) را ۲۴٪ افزایش داد، بدون آنکه دقت مدل افت کند.

به نقل از مستندات این پژوهش، این تغییر پارادایم ثابت می‌کند که آینده‌ی مدل‌های زبانی بزرگ (LLM) نه در انتخاب بین مدل‌های حالت-فضا (SSM) و ترانسفورمرها، بلکه در ارکستراسیون آن‌ها به صورت یک مجموعه متنوع است.

گام بعدی شما

بررسی نحوه ادغام استراتژی میکس موازی PHA در چارچوب‌های موجود Mixture-of-Experts (MoE).
آزمایش مدل‌های SSM-Hybrid برای کاهش هزینه‌ی استنتاج در پروژه‌های با پنجره متنی بالا.
رصد مقیاس‌پذیری این معماری در مدل‌هایی با میلیاردها پارامتر.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است؛ اثر این معماری بر نیاز به GPUها را در گزارش بعدی بررسی خواهیم کرد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

فضاهای حالت درگاه‌دار (Gated State Spaces - GSS): برای درک بافت کلی و جهانی متن.
توجه پرس‌وجوی گروهی (Grouped Query Attention - GQA): برای بازیابی دقیق و انتخابی اطلاعات.
شبکه‌های پیش‌خور (Feed-Forward Networks - FFNs): برای پردازش‌های تکمیلی.

گام بعدی شما

بررسی نحوه ادغام استراتژی میکس موازی PHA در چارچوب‌های موجود Mixture-of-Experts (MoE).
آزمایش مدل‌های SSM-Hybrid برای کاهش هزینه‌ی استنتاج در پروژه‌های با پنجره متنی بالا.
رصد مقیاس‌پذیری این معماری در مدل‌هایی با میلیاردها پارامتر.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه معماری PHA مصرف حافظه در متون طولانی را ۴۰٪ کاهش داد؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه معماری PHA مصرف حافظه در متون طولانی را ۴۰٪ کاهش داد؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه معماری PHA مصرف حافظه در متون طولانی را ۴۰٪ کاهش داد؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه معماری PHA مصرف حافظه در متون طولانی را ۴۰٪ کاهش داد؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران