«توجه پراکنده زیر-کوادراتی»؛ راهکار جدید برای افزایش سرعت استنتاج

منبع خبر

۲۷ خرداد ۱۴۰۵·۲۷ خرداد ۱۴۰۵۵ دقیقه مطالعه

لوگوی SubQ 1.1 Small: مدل زبانی کوچک و کارآمد با معماری بهینه‌سازی‌شده برای پردازش سریع‌تر و مصرف کمتر منابع.

اشتراک‌گذاری

اگر استراتژی هوش مصنوعی سازمان شما برای دور زدن محدودیت‌های پنجره متنی بر خط‌لوله‌های پیچیده RAG متکی است، مدل SubQ 1.1 Small احتمالاً این راهکارهای موقت را منسوخ می‌کند. در ۱۶ ژوئن ۲۰۲۶، تیم SubQ کارت مدل دومین تکرار مدل توجه پراکنده خود را منتشر کرد و مدعی شد که می‌تواند بدون پرداخت «مالیات محاسباتی» درجه دوم، روی کل پایگاه‌های کد و مجموعه‌های مستندات استدلال کند.

سخت‌ترین مسائل هوش مصنوعی در سطح سازمانی همگی یک ویژگی مشترک دارند: نیاز به استدلال روی آثار کامل. این آثار شامل کل مخازن کد، مجموعه‌های سند، گزارش‌های مالی و قراردادها هستند. سال‌هاست که صنعت، پنجره‌های متنی طولانی را به دلیل قوانین مقیاس‌پذیری مکانیزم توجه (Attention)، یک کالای لوکس می‌بیند.

بسیاری از توسعه‌دهندگان برای تغذیه مدل‌ها با تکه‌های کوچک داده، به استراتژی‌های تکه‌تکه کردن (Chunking)، خط‌لوله‌های بازیابی یا داربست‌های عاملی تکیه می‌کنند. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی چالش‌های حافظه در مدل‌های زبانی اشاره کردیم، این‌ها ابزارهای مفیدی هستند اما در نهایت تنها راهکارهایی برای محدودیت‌های معماری مدل‌اند. محدودیت اصلی، خودِ مکانیزم توجه بود: محاسباتی که با افزایش طول متن به‌صورت درجه دوم (Quadratic) رشد می‌کند و استدلال مستقیم روی آثار بزرگ را به‌شدت گران می‌کند. این تکه‌تکه کردن اغلب باعث می‌شود روابط حیاتی بین بخش‌های دوردست یک سند — مثلاً یک تعریف قانونی در صفحه ۲ و یک استثنا در صفحه ۴۶ — از دست برود.

SubQ 1.1 Small این مشکل را با جایگزینی توجه متراکم با توجه پراکنده زیر-درجه دوم (Subquadratic Sparse Attention یا SSA) حل می‌کند. طبق گزارش فنی subq.ai، مکانیزم SSA از یک فرمولاسیون پراکنده یادگیری‌شده استفاده می‌کند که به‌جای رشد درجه دوم، به‌صورت خطی با طول متن مقیاس می‌شود. این ویژگی به مدل اجازه می‌دهد پنجره‌ای عظیم را حفظ کند و در عین حال هزینه‌های محاسباتی را مدیریت نماید.

به نقل از مستندات فنی این مدل، بهره‌وری در مقیاس‌های بالا به اوج می‌رسد. در پنجره متنی ۱ میلیون توکنی، SubQ 1.1 Small به ۶۴.۵ برابر محاسبات کمتر نسبت به توجه متراکم نیاز دارد و در یک لایه توجه، ۵۶ برابر سریع‌تر از FlashAttention-2 عمل می‌کند. این تغییر، اقتصاد آموزش و استنتاج متون طولانی را به‌کلی دگرگون می‌کند.

در بنچمارک‌های بازیابی، مدل در پنج محور ارزیابی شد: بازیابی متن طولانی، تعمیم طول متن، دانش، کدنویسی و وظایف عاملی با افق زمانی بلند. نتایج نشان‌دهنده دقت بسیار بالاست:

سوزن در انبار کاه (NIAH): در این آزمون دقت، یک حقیقت در عمقی مشخص قرار می‌گیرد. SubQ 1.1 Small در توکن‌های ۱، ۲، ۶ و ۱۲ میلیون به نمرات تقریباً کامل رسید.
RULER: این آزمون قابلیت‌ها ۱۳ تسک از جمله ردیابی متغیرهای چندگانه و تجمیع داده‌ها را پوشش می‌دهد. مدل در ۱۲۸ هزار توکن نمره ۹۹.۱۲٪ گرفت.
استدلال عمومی: مدل تعادلی بین بهینه‌سازی متن طولانی و توانایی عمومی ایجاد کرده است. این مدل در آزمون GPQA Diamond (علوم سطح تحصیلات تکمیلی) نمره ۸۵.۴٪ گرفت که آن را بالاتر از مدل‌های کوچک‌تر قرار می‌دهد. همچنین در LiveCodeBench نمره ۸۹.۷٪ (pass@4) کسب کرد که نزدیک به مرزهای فعلی تکنولوژی است.
مالیات عاملی: در AutomationBench Finance، نمره ۱۳٪ را کسب کرد که اگرچه نمرات مطلق در این بنچمارک برای همه مدل‌ها پایین است، اما این مدل نزدیک به قوی‌ترین‌ها و جلوتر از مدل‌های میان‌رده است.

این مدل با جایگزینی لایه‌های توجه متراکم یک مدل پیشرو (Frontier) با وزن‌های باز و تبدیل آن‌ها به SSA توسعه یافته است. تیم سازنده سپس گسترش مرحله‌ای متن را اجرا کرد — حرکت از ۲۶۲ هزار، ۵۱۲ هزار، ۱ میلیون و ۲ میلیون توکن — و در ادامه، پیش‌آموزش را روی حدود یک تریلیون توکن از داده‌های فرم-بلند شامل کتاب‌ها، اسناد و کدهای مقیاس مخزن ادامه داد.

از آنجا که SSA توجه را بر اساس ارتباط محتوایی هدایت می‌کند و نه موقعیت‌های ثابت، مدل به‌طور موثری تعمیم می‌یابد. بر اساس گزارش تیم توسعه، اگرچه مدل عمدتاً در ۱ میلیون توکن آموزش دیده، اما بازیابی تقریباً کامل را در ۱۲ میلیون توکن حفظ کرد و توجه را تنها به ۰.۱۳٪ از کل روابط فشرده کرد. آن‌ها دریافتند که پیش‌آموزش مستمر روی متون طولانی، قوی‌ترین اهرم برای بهبود بازیابی است.

این چرخش معماری، اقتصاد بنیادین پژوهش‌های هوش مصنوعی را تغییر می‌دهد. تیم SubQ اشاره کرد که SSA به آن‌ها اجازه داد آزمایش‌های چند میلیون توکنی را به‌جای رویدادهای نادر، به‌عنوان یک رویه استاندارد اجرا کنند. این امر چرخه تکرار آن‌ها را در بیش از ۱۰۰ آزمایش و ۷ نسل مدل شتاب بخشید.

برای متخصصان فنی، این یک تغییر رویکرد از استدلال «بازیابی-افزا» به استدلال «متن-افزا» است. SubQ برای حجم‌های کاری طراحی شده که نیاز به استدلال روی آثار بدون تکه‌تکه کردن دارند:

مهندسی نرم‌افزار: SubQ کل یک مخزن کد را در یک پنجره بارگذاری می‌کند. این امر استدلال در سطح معماری، بازسازی کد در چندین فایل و ردیابی وابستگی‌ها را در یک مرحله ممکن می‌سازد.
کارهای حقوقی و قراردادها: به‌جای یافتن یک جمله تکه تکه و از دست دادن روابط، SubQ کل سند را نگه می‌دارد تا مستقیماً روی تعاریف و استثناها استدلال کند.
تحلیل مالی: برای بررسی‌های لازم (Due Diligence)، مدل به‌جای خلاصه‌سازی مجزای اسناد، روی کل مجموعه گزارش‌های سود و سوابق داخلی استدلال می‌کند.

SubQ در حال حاضر نسخه 1.1 Small را با شرکای طراحی منتخب مستقر می‌کند. انتظار می‌رود طیف گسترده‌تری از مدل‌ها با پشتیبانی از ۲ تا ۱۲ میلیون توکن تا پایان سال ۲۰۲۶ عرضه شوند.

گام بعدی شما

اگر با داده‌های حجیم سر و کار دارید، معماری SSA را در گزارش فنی SubQ بررسی کنید تا متوجه شوید چگونه بدون افت دقت، هزینه استنتاج را کاهش دهید.
استراتژی RAG خود را بازنگری کنید؛ در مواردی که استدلال بین‌سندی (Cross-document) حیاتی است، مدل‌های با پنجره متنی عظیم جایگزین بهتری هستند.
منتظر انتشار عمومی مدل و مقایسه آن با معماری‌های بازگشتی و توجه پراکنده DeepSeek باشید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

«توجه پراکنده زیر-کوادراتی»؛ راهکار جدید برای افزایش سرعت استنتاج

Hacker News (RSS)

منبع خبر

۲۷ خرداد ۱۴۰۵·۲۷ خرداد ۱۴۰۵۵ دقیقه مطالعه

لوگوی SubQ 1.1 Small: مدل زبانی کوچک و کارآمد با معماری بهینه‌سازی‌شده برای پردازش سریع‌تر و مصرف کمتر منابع.

اشتراک‌گذاری

سوزن در انبار کاه (NIAH): در این آزمون دقت، یک حقیقت در عمقی مشخص قرار می‌گیرد. SubQ 1.1 Small در توکن‌های ۱، ۲، ۶ و ۱۲ میلیون به نمرات تقریباً کامل رسید.
RULER: این آزمون قابلیت‌ها ۱۳ تسک از جمله ردیابی متغیرهای چندگانه و تجمیع داده‌ها را پوشش می‌دهد. مدل در ۱۲۸ هزار توکن نمره ۹۹.۱۲٪ گرفت.
استدلال عمومی: مدل تعادلی بین بهینه‌سازی متن طولانی و توانایی عمومی ایجاد کرده است. این مدل در آزمون GPQA Diamond (علوم سطح تحصیلات تکمیلی) نمره ۸۵.۴٪ گرفت که آن را بالاتر از مدل‌های کوچک‌تر قرار می‌دهد. همچنین در LiveCodeBench نمره ۸۹.۷٪ (pass@4) کسب کرد که نزدیک به مرزهای فعلی تکنولوژی است.
مالیات عاملی: در AutomationBench Finance، نمره ۱۳٪ را کسب کرد که اگرچه نمرات مطلق در این بنچمارک برای همه مدل‌ها پایین است، اما این مدل نزدیک به قوی‌ترین‌ها و جلوتر از مدل‌های میان‌رده است.

مهندسی نرم‌افزار: SubQ کل یک مخزن کد را در یک پنجره بارگذاری می‌کند. این امر استدلال در سطح معماری، بازسازی کد در چندین فایل و ردیابی وابستگی‌ها را در یک مرحله ممکن می‌سازد.
کارهای حقوقی و قراردادها: به‌جای یافتن یک جمله تکه تکه و از دست دادن روابط، SubQ کل سند را نگه می‌دارد تا مستقیماً روی تعاریف و استثناها استدلال کند.
تحلیل مالی: برای بررسی‌های لازم (Due Diligence)، مدل به‌جای خلاصه‌سازی مجزای اسناد، روی کل مجموعه گزارش‌های سود و سوابق داخلی استدلال می‌کند.

گام بعدی شما

اگر با داده‌های حجیم سر و کار دارید، معماری SSA را در گزارش فنی SubQ بررسی کنید تا متوجه شوید چگونه بدون افت دقت، هزینه استنتاج را کاهش دهید.
استراتژی RAG خود را بازنگری کنید؛ در مواردی که استدلال بین‌سندی (Cross-document) حیاتی است، مدل‌های با پنجره متنی عظیم جایگزین بهتری هستند.
منتظر انتشار عمومی مدل و مقایسه آن با معماری‌های بازگشتی و توجه پراکنده DeepSeek باشید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

«توجه پراکنده زیر-کوادراتی»؛ راهکار جدید برای افزایش سرعت استنتاج

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

«توجه پراکنده زیر-کوادراتی»؛ راهکار جدید برای افزایش سرعت استنتاج

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

«توجه پراکنده زیر-کوادراتی»؛ راهکار جدید برای افزایش سرعت استنتاج

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

«توجه پراکنده زیر-کوادراتی»؛ راهکار جدید برای افزایش سرعت استنتاج

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران