آیا میتوان یک پایگاه کد با ۱۲ میلیون توکن را بدون پرداخت هزینهی نجومیِ محاسباتی تحلیل کرد؟ SubQ ادعا میکند پاسخ مثبت است و در ۱۶ ژوئن ۲۰۲۶، کارت مدل SubQ 1.1 Small را برای حل چالش «پردازش کامل آرتیفکتها» در هوش مصنوعی سازمانی منتشر کرد.
برای سالها، توسعهدهندگان برای دور زدن محدودیتهای معماری مدلهای زبانی بزرگ (LLM)، به خطلولههای تولید بازیابیافزا (RAG) و تکهبندی (Chunking) تکیه میکردند. همانطور که در تحلیلهای پیشین ما دربارهی محدودیتهای پنجرههای متنی اشاره کردیم، این روشها اغلب روابط پیچیده میان دادهها را تکهتکه میکنند. هدف SubQ حذف این میانجیها و امکان استدلال مستقیم روی کل مجموعه اسناد در یک گذر واحد است.
به نقل از گزارش فنی subq.ai، این مدل از طریق توجه پراکنده زیر-کوادراتی (Subquadratic Sparse Attention یا SSA) به این دستاورد رسیده است؛ سیستمی که توجه متراکم را با یک فرمولاسیون پراکنده یادگرفته جایگزین میکند. بر اساس مستندات منتشر شده، نقاط عطف فنی این مدل عبارتاند از:
- کارایی: در مقیاس ۱ میلیون توکن، این مدل به ۶۴.۵ برابر محاسبات کمتر نسبت به توجه متراکم نیاز دارد و ۵۶ برابر سریعتر از FlashAttention-2 عمل میکند.
- بازیابی: کسب نمرات نزدیک به کامل در آزمون «سوزنی در انبار کاه» (NIAH) برای بازههای ۱، ۲، ۶ و ۱۲ میلیون توکن.
- استدلال: کسب امتیاز ۹۹.۱۲٪ در آزمون RULER در ۱۲۸ هزار توکن و نرخ ۸۹.۷٪ در معیار pass@4 در LiveCodeBench.
این تحول، فرض اثرگذار صنعت را از «بازیابی از طریق تکهبندی» به «استدلال از طریق زمینه کامل» تغییر میدهد. SubQ 1.1 Small با هدایت توجه بر اساس ارتباط محتوایی بهجای موقعیتهای ثابت، میتواند به طولهای زمینهای تا ۱۲ برابر بیشتر از پنجره آموزش اولیه خود تعمیم یابد. این قابلیت، بازسازی ساختاری معماری در مهندسی نرمافزار و بررسیهای جامع مالی را ممکن میکند؛ جایی که خلاصههای مجزا معمولاً شکست میخورند.
شرکت SubQ در حال حاضر این مدل را برای شرکای طراحی منتخب مستقر میکند و عرضه گستردهتر مدلهای ۲ تا ۱۲ میلیون توکنی تا پایان سال ۲۰۲۶ پیشبینی شده است.
گام بعدی شما
- اگر با مجموعههای داده حجیم سر و کار دارید، عملکرد مدلهای Sparse Attention را در مقابل RAG سنتی مقایسه کنید.
- تغییر رفتار مدل در مواجهه با Context Windowهای بسیار بلند (بیش از ۱۰ میلیون توکن) را زیر نظر بگیرید.
- بررسی کنید آیا این مقیاسپذیری خطی میتواند جایگزین استراتژیهای Chunking در پروژههای شما شود یا خیر.
اما اثر این تغییر معماری بر مصرف حافظه VRAM حتی حیاتیتر است — به تحلیل ما دربارهی بهینهسازی KV Cache مراجعه کنید. در این راستا، معماری ترکیبی PHA نیز توانسته است با بهینهسازی مدیریت حافظه، مصرف VRAM را در متون طولانی تا ۴۰٪ کاهش دهد.




گفتگو