مدل SubQ هزینه‌ی پردازش متون طولانی را از ۲۶۰۰ دلار به ۸ دلار رساند

اگر مدیریت یک کدبیس عظیم یا تحلیل صدها سند در دستور کار شماست، احتمالاً صورت‌حساب پردازش ابری بزرگ‌ترین کابوس مالی شماست. شرکت Subquadratic ادعا می‌کند با کاهش هزینه‌های ریاضی در پردازش متن، قیمت برخی تسک‌های خاص را از هزاران دلار به کمتر از ۱۰ دلار رسانده است.

اکثر مدل‌های مدرن بر معماری ترنسفورمر (Transformer) تکیه دارند که از «توجه متراکم» (Dense Attention) استفاده می‌کند. این بدان معناست که هر کلمه در یک پرامپت با تمام کلمات دیگر مقایسه می‌شود. اگر طول متن را دو برابر کنید، حجم محاسبات تقریباً چهار برابر می‌شود. این «گسترش درجه‌دوم» دلیلی است که مدل‌های زبانی بزرگ (LLM) — مثل کتابخانه‌داری که میلیاردها صفحه را خوانده و حالا با همان لحن کتاب‌ها جواب می‌دهد — به مصرف‌کنندگان عظیم انرژی تبدیل شده‌اند و با مجموعه‌داده‌های حجیم دست‌وپنجه نرم می‌کنند.

در ۱۹ ژوئن ۲۰۲۶، Subquadratic داده‌های جدیدی را برای اثبات ادعای مدل جدیدش، SubQ، منتشر کرد. این شرکت ماه گذشته از حالت مخفی (Stealth Mode) خارج شد، اما ابتدا با تردید مواجه گشت چون شواهد کمی برای ادعاهای جسورانه‌اش ارائه داده بود. واکنش‌ها تند بود؛ دن مک‌اتیر، مهندس هوش مصنوعی در شبکه X نوشت که SubQ یا بزرگ‌ترین پیشرفت پس از ترنسفورمر است یا یک «ترانوسِ هوش مصنوعی» (کنایه از کلاهبرداری بزرگ).

همان‌طور که در تحلیل‌های قبلی ما درباره‌ی بهینه‌سازی حافظه در مدل‌های بازمتن اشاره کردیم، حذف گلوگاه‌های محاسباتی کلید دسترسی شرکت‌های کوچک به تحلیل‌های عمیق است.

درک گلوگاه ترنسفورمر

برای درک اهمیت این خبر، باید به مقاله بنیادین ۲۰۱۷ گوگل یعنی «Attention Is All You Need» بازگشت. این مقاله ترنسفورمر را معرفی کرد که هر توکن (Token) — تکه‌های کوچکی از متن، مثل برش‌های یک کیک طولانی که مدل تکه‌تکه می‌خورد — را با عددی کدگذاری کرده و در تمام اعداد دیگر متن ضرب می‌کند.

به عنوان مثال، متنی با ۱۰ هزار کلمه، تقریباً ۵۰ میلیون ضرب مجزا نیاز دارد. به نقل از جاستین دانگل، مدیرعامل شرکت، برای خلاصه‌سازی کتابی مثل «گتسبی بزرگ»، مدل باید کلمه اول و آخر و تمام ترکیب‌های ممکن را با هم بررسی کند.

با افزایش طول متن، حجم محاسبات به شدت بالا می‌رود. برای درک این رشد، تصور کنید دایره‌ای با ۵ نقطه (توکن) دارد؛ برای اتصال این نقاط به هم، ۱۰ خط (ضرب) لازم است. اگر تعداد نقاط به ۱۰ برسد، ۴۵ خط و اگر به ۲۰ برسد، ۱۹۰ خط نیاز است. این رشد نمایی، سد بزرگی در برابر انرژی و هزینه مدل‌های فعلی ایجاد کرده است.

مکانیسم: توجه پراکنده پویا

مدل SubQ برخلاف مدل‌های استاندارد، از «توجه پراکنده» (Sparse Attention) استفاده می‌کند. به‌جای ضرب تک‌تک توکن‌ها، فقط روابط حیاتی را محاسبه می‌کند. الکس ودون، مدیر فنی شرکت، معتقد است بررسی هر کلمه با تمام کلمات دیگر در یک کتاب، «دیوانگی» است.

انتخاب پویا: برخلاف تلاش‌های قبلی که از الگوهای ثابت استفاده می‌کردند (مثلاً همیشه کلمه اول را با پنجمین کلمه مقایسه کنند)، SubQ در لحظه محاسبه می‌کند که روی کدام کلمات تمرکز کند. این کار باعث می‌شود پیچیدگی زبان طبیعی به‌درستی مدیریت شود. ودون اشاره می‌کند که الگوهای ثابت «بسیار محدودکننده» هستند زیرا زبان پیچیده‌تر از آن است.
بهره‌وری: این روش نیاز به چرخه‌های عظیم ضرب را حذف کرده و مدل را سریع‌تر، ارزان‌تر و کم‌مصرف‌تر می‌کند. این رویکرد اجازه می‌دهد مدل نسبت به هر مدل دیگری در بازار، انرژی بسیار کمتری مصرف کند.
فرمول محرمانه: ودون اشاره می‌کند که منطق خاص مورد استفاده برای انتخاب این توکن‌های مهم، مزیت اختصاصی و مالکانه شرکت است. این انتخاب به صورت پویا محاسبه می‌شود و برای هر قطعه متنی که به مدل داده می‌شود، متفاوت است.

استارتاپی ادعا می‌کند گلوگاه محدودکننده مدل‌های زبانی بزرگ را شکسته است

عملکرد و بنچمارک‌ها

برای اثبات ادعاها، Subquadratic شرکت Appen را، که یک شرکت ارزیابی شخص ثالث است، برای تست‌های مستقل استخدام کرد. ژانین سینان-سینگ، مدیر تحقیقات هوش مصنوعی زاینده در Appen، اعلام کرد که نتایج، معماری مدل را تایید می‌کند و می‌تواند یک «تغییردهنده بازی» باشد، چرا که مدل‌ها معمولاً با سرعت و ناکارآمدی دست‌وپنجه نرم می‌کنند. او افزود که نتایج تکان‌دهنده زمانی که توسط خود شرکت اعلام شوند، اعتبار کمتری دارند و به همین دلیل تایید شخص ثالث حیاتی بود.

سرعت: در تست‌های پایه تئوری، SubQ ۵۶ برابر سریع‌تر از مدل‌های استفاده‌کننده از FlashAttention بود که خود یکی از تکنیک‌های پیشین توجه پراکنده است.
کدنویسی: در آزمون LiveCodeBench، که از مسائل کدنویسی رقابتی در مسابقات واقعی استفاده می‌کند، این مدل امتیاز ۸۹.۷٪ گرفت. این نتیجه، آن را در یک رده با مدل‌های برتر گوگل دیپ‌مایند، OpenAI و آنتروپیک قرار می‌دهد. سینان-سینگ اشاره کرد که مدل همچنان «عملکردی در سطح پیشرو (Frontier-level) در کدنویسی» ارائه می‌دهد.
بازیابی: در تست‌های «سوزن در انبار کاه» (Needle-in-a-Haystack)، که توانایی مدل در یافتن اطلاعات خاص دفن شده در داده‌ها را می‌سنجد، مدل حتی با پنجره متنی (Context Window) — میزان متنی که مدل هم‌زمان در ذهن نگه می‌دارد، مثل میز کاری که جا برای چند ورق دارد — تا ۶ میلیون و ۱۲ میلیون توکن، دقت ۹۸ درصدی داشت. Appen گزارش داد که SubQ «بازیابی نزدیک به کامل در متون طولانی را در مقیاس‌هایی حفظ کرد که کمتر مدلی در آن مقیاس تست شده است».

شکاف هزینه‌ای

طبق گزارش جاستین دانگل، یک مقایسه تکان‌دهنده در تست RULER 128 (تستی توسعه‌یافته توسط انویدیا برای سنجش توانایی بازیابی اطلاعات از مجموعه‌های بزرگ) صورت گرفت. اجرای این تست برای مدل Opus 4.6 شرکت آنتروپیک ۲۶۰۰ دلار هزینه داشت، در حالی که اجرای همین تست برای SubQ تنها ۸ دلار هزینه برد.

این مدل همچنین پنجره متنی عظیم ۱۲ میلیون توکنی دارد که به عنوان نوعی حافظه فعال عمل می‌کند. برای مقایسه، اکثر مدل‌های سطح اول فعلی سقف یک میلیون توکن دارند. این یعنی SubQ می‌تواند تا ۱۲ برابر بیشتر از سایر مدل‌ها، متن را به صورت هم‌زمان پردازش کند.

در یک دموی زنده، مدل توانست ۴۰۰ سند را در چند ثانیه تحلیل و استدلال کند؛ در حالی که موتور جستجوی Perplexity در اجرای همین تسک شکست خورد و نتوانست تمام ۴۰۰ سند را بارگذاری کند. این نشان می‌دهد SubQ می‌تواند تسک‌های سنگین داده‌ای، مانند تحلیل کل یک کدبیس، را بسیار موثرتر از رقبای خود انجام دهد.

تردیدها و نقدها

با این حال، برخی متخصصان محتاط هستند. ویل دپیو، پژوهشگر سابق OpenAI، اشاره کرد که Subquadratic برای شروع، از وزن‌های باز (Open Weights) — یعنی مقادیری که در طول آموزش تنظیم شده و رفتار مدل را تعیین می‌کنند — مدل چینی Qwen استفاده کرده است تا SubQ را راه‌اندازی کند، به جای اینکه آن را از صفر آموزش دهد.

دپیو می‌گوید این تصمیم ادعای بازطراحی کامل بنیاد LLM را پیچیده می‌کند. او این دستاورد را به دویدن در چهار دقیقه در یک مایل تشبیه کرد (که مفید است)، اما معتقد است شواهد عمومی هنوز برای اثبات این ادعا که آن‌ها گلوگاه توجه درجه‌دوم را به طور کامل حل کرده‌اند، کافی نیست.

همچنین دسترسی به مدل محدود است. با وجود ثبت‌نام ده‌ها هزار کاربر و بیش از ۵۰۰ مشتری سازمانی برای دسترسی زودهنگام، شرکت تاکنون به افراد بسیار کمی اجازه دسترسی داده است. Subquadratic دلیل این امر را کوچک بودن شرکت و محدودیت منابع می‌داند.

چشم‌انداز آینده

الکس ودون پذیرفت که انتشار بنچمارک‌های شخص ثالث در همان ابتدای معرفی، می‌توانست تردیدها را کمتر کند. شرکت اکنون در حال صرف زمان است تا اطمینان یابد تمام نتایج آینده پیش از انتشار کاملاً تایید شده‌اند.

برای صاحبان کسب‌وکار، این به معنای تغییر احتمالی در نحوه بودجه‌بندی برای هوش مصنوعی است. اگر این هزینه‌ها در مقیاس بزرگ درست باشند، «مالیات توکن» برای پردازش آرشیوهای شرکتی از بین می‌رود و تحلیل داده‌های عمیق برای شرکت‌های کوچک نیز ممکن می‌شود، نه فقط برای غول‌های فناوری. جاستین دانگل معتقد است این آغاز عصر جدیدی از بهره‌وری است و می‌گوید: «فکر نمی‌کنیم تا چند سال دیگر کسی روی ترنسفورمرها مدل بسازد».

اینکه SubQ یک تغییر پارادایم است یا یک بهینه‌سازی هوشمندانه، هنوز مشخص نیست. با این حال، اگر صنعت از ترنسفورمرها فاصله بگیرد، کل زیرساخت سخت‌افزاری — از H100ها تا تراشه‌های سفارشی — باید برای پشتیبانی از منطق توجه پراکنده تکامل یابند. ودون تاکید می‌کند که ایجاد یک معماری متفاوت تنها گزینه او بود و اشاره کرد: «ما بیشتر از OpenAI در فشار هستیم».

منتظر عرضه گسترده‌تر SubQ به عموم باشید؛ زیرا این تنها تست واقعی خواهد بود تا مشخص شود آیا «فرمول محرمانه» آن‌ها فراتر از بنچمارک‌های کنترل‌شده نیز مقیاس‌پذیر است یا خیر.

گام بعدی شما

اگر از مدل‌های گران‌قیمت برای تحلیل اسناد حجیم استفاده می‌کنید، لیست انتظار SubQ را دنبال کنید تا هزینه‌های استنتاج خود را بسنجید.
معماری‌های جایگزین ترنسفورمر را در مقالات اخیر پژوهشی دنبال کنید تا متوجه شوید آیا دوران سلطه Dense Attention به پایان رسیده است یا خیر.
در صورت دسترسی، مدل را با تسک‌های «بازیابی اطلاعات در متون طولانی» به چالش بکشید تا دقت ادعایی ۹۸ درصدی را بسنجید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell و بهینه‌سازی‌های حافظه مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.