«بهینه‌سازی استنتاج طولانی»؛ هدف اصلی در طراحی مدل وزن‌باز M3

منبع خبر

۱۷ دقیقه پیش·۳ تیر ۱۴۰۵۴ دقیقه مطالعه

نمایش ساختار Sparse Attention در مدل MiniMax M3: کاهش پیچیدگی محاسباتی از O(n²) به O(n) با استفاده از انتخاب هوشمندانه توکن‌ه

اشتراک‌گذاری

اگر امروز برای پردازش متون طولانی در مدل‌های زبانی هزینه‌های گزاف می‌پردازید، باید بدانید که کاهش ۲۸.۴ برابری در محاسبات برای چنین زمینه‌هایی اکنون به یک واقعیت تبدیل شده است. این رقم نه یک ادعای بازاریابی، بلکه نتیجه‌ی تغییر در بنیادی‌ترین بخش معماری مدل‌های ترنسفورمر است.

در ۱ ژوئن ۲۰۲۶، آزمایشگاه MiniMax مستقر در شانگهای، مدل M3 را منتشر کرد. این نخستین مدل با وزن‌های باز (Open Weights) است که به‌طور هم‌زمان پنجرهٔ زمینه (Context Window) یک میلیون توکنی و قابلیت‌های چندوجهی (Multimodal) بومی را برای ورودی‌های متنی، تصویری و ویدئویی ارائه می‌دهد. عرضه این مدل در راستای جریان اخیر انتشار مدل‌های متخصص با وزن‌های باز است که در هفته‌های اخیر بازار هوش مصنوعی را متحول کرده است.

در مدل‌های رایج، سازوکار توجه (Attention) به‌صورت درجه-دو مقیاس می‌یابد؛ یعنی با دوبرابر شدن حجم متن، محاسبات چهاربرابر می‌شود. این همان مشکل O(n²) است که پیش از این، اجرای یک پاس پیشرو (Forward Pass) با یک میلیون توکن را برای توسعه‌دهندگان از نظر سخت‌افزاری غیرممکن می‌کرد. در حالی که دیگران تلاش کرده‌اند از فشرده‌سازی KV-cache یا توجه خطی استفاده کنند، این روش‌ها اغلب دقت را فدای سرعت می‌کنند. این چالش مقیاس‌بندی یک بار مشترک در سراسر صنعت است و مدل‌های وزن-باز دیگری مانند Apertus 70B سوئیس را نیز تحت تأثیر قرار داده است.

MiniMax این چالش را با معرفی توجه پراکنده MiniMax (MSA) حل کرده است. به نقل از مقاله‌ای که در arXiv (شناسه ۲۶۰۶.۱۳۳۹۲) منتشر شده، MSA به‌جای پردازش کل پنجرهٔ متنی، تنها ۲۰۴۸ توکن مرتبط با هر پرس‌وجو را شناسایی می‌کند. این مکانیسم باعث می‌شود حجم محاسبات با رشد متن ثابت بماند و یک مقیاس‌بندی زیر-درجه-دو ایجاد شود. این رویکرد در واقع تکامل یافته‌ی مفاهیم توجه پراکنده زیر-کوادراتی است که پیش‌تر برای کاهش هزینه‌های استنتاج پیشنهاد شده بود.

نمایشگر توجه پراکنده در مدل MiniMax M3: شکست محاسباتی در پردازش متن طولانی

جزئیات معماری MSA

انتخاب دو مرحله‌ای: MSA در دو مرحله عمل می‌کند. ابتدا یک شاخهٔ نمایه‌ساز (Index Branch)، حافظهٔ KV را به بلوک‌های ۱۲۸ توکنی تقسیم کرده و ۱۶ بلوک مرتبط‌ترین را برای هر گروه GQA انتخاب می‌کند. این پراکندگیِ خاص برای هر گروه، MSA را از رویکردهای یکنواخت متمایز می‌کند. سپس شاخهٔ اصلی، توجه دقیق را تنها روی آن حدود ۲۰۴۸ توکن اجرا می‌کند.
طراحی مشترک با GPU: برای تبدیل این تئوری به سرعت واقعی، تیم MiniMax یک کرنل سفارشی ساخت. ویژگی‌های این کرنل شامل انتخاب k-برتر بدون نیاز به تابع exp (exp-free top-k selection)، توجه پراکنده KV-outer (که پرس‌وجوهای نیازمند یک بلوک یکسان را دسته‌بندی می‌کند) و دسترسی پیوسته به حافظه است تا تضمین شود هر بلوک تنها یک‌بار خوانده شود.
دقت در برابر کارایی: MSA یک انشعاب معماری واقعی از توجه نهانی چندسره (MLA) در مدل DeepSeek است. در حالی که MLA داده‌های KV را برای بهینه‌سازی حافظه به یک فضای نهان فشرده می‌کند، MSA روی داده‌های KV فشرده‌نشده عمل می‌کند. این انتخاب باعث حفظ دقت بازیابی در متون بسیار طولانی می‌شود، هرچند هزینه حافظه را افزایش می‌دهد.

عملکرد و نمایش‌های عملی

این مدل در محک SWE-bench Pro به امتیاز ۵۹.۰٪ رسید و با اختلاف اندکی از امتیاز ۵۸.۶٪ مدل GPT-5.5 پیشی گرفت. علاوه بر بنچمارک‌ها، به گزارش MiniMax، این مدل در سه سناریوی خودمختار موفق بود:

پژوهش دانشگاهی: مدل M3 توانست یک مقاله از ICLR ۲۰۲۵ را در مدت ۱۲ ساعت و با ثبت ۱۸ کامیت کد بازتولید کند.
بهینه‌سازی کرنل: این مدل در عرض ۲۴ ساعت و با ۱۴۷ مورد ارسال کد (Submission)، به شتاب ۹.۴ برابری در یک کرنل CUDA FP8 GEMM دست یافت.
آموزش مدل: M3 موفق شد به صورت کاملاً خودمختار، فرآیند آموزش را برای چهار مدل پایه آموزش‌ندیده در یک بازه ۱۲ ساعته مدیریت کند. این قابلیت‌های پیشرفته در گزارش اولیه عرضه M3 و تمرکز آن بر عامل‌های هوشمند مورد بررسی قرار گرفته بود.

تحلیل هزینه و دسترسی

از نظر مالی، قیمت API این مدل در طرح تشویقی ۰.۳۰ دلار به ازای هر میلیون توکن ورودی است؛ در حالی که این رقم برای Opus 4.8 و GPT-5.5 حدود ۵.۰۰ دلار است. یک تسک کدنویسی معمولی با ۵۰۰ هزار توکن ورودی و ۱۰۰ هزار توکن خروجی در M3 حدود ۰.۲۷ دلار هزینه دارد که تقریباً ۵٪ هزینه مدل Opus 4.8 است. حتی با نرخ‌های استاندارد (۰.۵۴ دلار برای هر تسک)، M3 برای جریان‌های کاری با حجم بالا، یک مرتبه ارزان‌تر است.

محدودیت‌های حیاتی

با این حال، M3 محدودیت‌های مشخصی دارد. این مدل تحت لایسنس MiniMax Community (CC BY-NC 4.0) منتشر شده است؛ این بدان معنای است که استفاده تجاری آن مستلزم انعقاد یک قرارداد جداگانه است و میزبانی شخصی برای مقاصد تجاری ممنوع است.

همچنین شکاف‌های عملکردی دیده می‌شود. استدلال انتزاعی مدل ضعیف است؛ به طوری که در آزمون ARC-AGI-2 نمراتی در محدوده «تک‌رقمی پایین» کسب کرد. توماس ویگولد، تحلیلگر مستقل، اشاره کرد که M3 حدود ۳۰ تا ۴۰ دقیقه روی یک شبیه‌سازی پوکر وقت صرف کرد اما در نهایت تنها نتایجی متوسط تولید کرد. این امر نشان می‌دهد M3 یک «مجری» توانمند است، نه یک جایگزین برای استدلال کلی.

در نهایت، کاربران باید موضوع حاکمیت داده‌ها را در نظر بگیرند. به‌دلیل استقرار MiniMax در شانگهای، تمام ترافیک API بدون توجه به مکان کاربر، تحت قوانین داده‌های چین است. علاوه بر این، بنچمارک‌های خوداظهاری ممکن است خوش‌بینانه باشند؛ زیرا مقایسه‌ها با Opus 4.7 (۶۴.۳٪) انجام شده است نه نسخه جاری Opus 4.8 (۶۹.۲٪)، که نشان می‌دهد فاصله با مدل‌های پیشرو حدود ۱۰ درصد بیشتر از ادعاهای تیترهاست.

برای متخصصان، این معماری یک چرخش جدی از روند «فشرده‌سازی نهان» است. MiniMax با اثبات اینکه توجه پراکنده می‌تواند کیفیت کدنویسی پیشرو را حفظ کرده و هم‌زمان «مالیات O(n²)» را حذف کند، یک نقشه راه مقیاس‌پذیر برای نسل بعدی مدل‌های با زمینه طولانی ارائه داده است.

کاربران باید نتایج آتی و مستقل Chatbot Arena را دنبال کنند تا تأیید شود که آیا این بنچمارک‌های خوداظهاری در برابر آخرین نسخه‌های Opus 4.8 و GPT-5.5 پایداری می‌کنند یا خیر.

گام بعدی شما

اگر روی پروژه‌های کدنویسی با حجم داده بالا کار می‌کنید، هزینه استنتاج خود را با نرخ‌های M3 مقایسه کنید.
محدودیت‌های لایسنس NC 4.0 را پیش از ادغام در محصولات تجاری بررسی کنید.
نتایج مستقل Chatbot Arena را برای تأیید بنچمارک‌های خوداظهاری M3 دنبال کنید.

اما اثر این کاهش هزینه بر استقرار عامل‌های کدنویس در مقیاس صنعتی حتی تکان‌دهنده‌تر است؛ به تحلیل ما درباره‌ی آینده Agentic Workflow مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.