اگر در حال ساخت عاملهای هوش مصنوعی هستید که با تأخیر در «تفکر» میجنگند، سقف بهرهوری شما همین حالا جابهجا شد. شیائومی در ۸ ژوئن ۲۰۲۶ به نقطه عطف بزرگی رسید؛ آنها توانستند یک مدل ۱ تریلیون پارامتری را به سرعت ۱۰۰۰ توکن در ثانیه برسانند.
bیشتر مدلهای تریلیون-پارامتری بهشدت کند هستند. برای اینکه این مدلها سریع به نظر برسند، معمولاً به تراشههای اختصاصی مثل Groq نیاز داریم. همانطور که در تحلیل قبلی ما دربارهی کاهش ۹۹ درصدی هزینههای API شیائومی اشاره کردیم، این شرکت حالا روی گلوگاه تأخیر تمرکز کرده تا هوش بلادرنگ را ممکن کند.
استنتاج (Inference) — که مثل خودِ آشپزی است و نه دورهی آموزش آشپز — در این مدل از طریق طراحی مشترک بین مدل و سیستم TileRT بهینه شده است. طبق اعلام رسمی این شرکت، سه تکنیک کلیدی در این موفقیت نقش دارند:
- کوانتایزاسیون FP4 (FP4 Quantization): این روش شبیه تبدیل یک عکس باکیفیت به فرمت JPEG است که حجم را کم میکند اما چشم تفاوت را نمیبیند. مدل بهطور گزینشی دقت بخشهای MoE را به ۴ بیت کاهش میدهد تا کیفیت استدلال حفظ شود. این رویکرد در بهینهسازی مدلها برای سختافزارهای محدود، مشابه تکنیکی است که گوگل برای اجرای مدل Gemma 4 با حافظه بسیار کم روی موبایل به کار برد.

DFlash: این روش رمزگشایی گمانه — که شبیه پیشبینی کلمات بعدی در پیامکها اما در مقیاس بلوکی است — توکنها را بهصورت موازی پیشبینی میکند. بر اساس مستندات، در سناریوهای کدنویسی، مدل در هر دور ۶ تا ۷ توکن را تأیید میکند.
TileRT Persistent Engine: یک هستهی سفارشی که با نگه داشتن خط لوله محاسباتی روی GPU، شکافهای اجرایی را حذف میکند.
این بهینهسازیها اجازه میدهد یک گره معمولی با ۸ پردازندهی گرافیکی (GPU)، یک بازی Snake را در ۱۰ ثانیه
یا رابط کاربری MacOS را در یک دقیقه
تولید کند.
به باور تحلیلگران، این تغییر مدلهای ۱ تریلیونی را از «متفکران کند» به «کنشگران بلادرنگ» تبدیل میکند. حالا میتوانید دهها مسیر استدلالی را بهصورت موازی اجرا کنید تا پاسخها در همان زمانی که قبلاً یک پاسخ تولید میشد، خود-اصلاح شوند. برای کسبوکارها، این یعنی معاملات فرکانس بالا یا دستیاران جراحی AI میتوانند بدون سختافزار خاص، وارد مرحله تولید شوند.
گام بعدی شما
- چکپوینت MiMo-V2.5-Pro-FP4-DFlash را در HuggingFace تست کنید.
- استراتژی ترکیب FP4 را برای کاهش هزینههای استنتاج در پروژههای خود بررسی کنید.
- اثر این سرعت بر تجربهی کاربری (UX) عاملهای هوشمند خود را بسنجید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است؛ برای درک اثر این متدها بر نسل بعدی پردازنده، به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.

گفتگو