سرعت استنتاج در محیط عملیاتی ۶۰ تا ۸۵ درصد افزایش یافت. این جهش عملکردی در مدلهای DeepSeek-V4 نسبت به خطبنیاد MTP-1، طبق تحلیل فنی وبسایت marktechpost.com، حاصل بهکارگیری DSpark است؛ یک چارچوب جدید برای رمزگشایی گمانهزنانه (Speculative Decoding) که همراه با کدبیس متنباز DeepSpec عرضه شده است.
رمزگشایی گمانهزنانه تکنیکی حیاتی برای رفع گلوگاه استنتاج در مدلهای بزرگ هنگام ترافیک بالا است. در یک ساختار استاندارد، یک مدل عظیم توکنها را یکییکی تولید میکند که از نظر محاسباتی بسیار گران است. در این روش، فرآیند به دو نقش تقسیم میشود: یک مدل کوچک «پیشنویس» (Draft model) بلوکی از توکنها را پیشنهاد میدهد و مدل هدفِ اصلی، آنها را در یک گذر پیشرو (Forward Pass) تأیید میکند. در این مرحله، از روش «نمونهبرداری رد» (Rejection Sampling) استفاده میشود تا طولانیترین پیشوند معتبر پذیرفته شده و یک توکن جایزه به آن اضافه شود. از آنجا که این قانون توزیع هدف را دقیقاً حفظ میکند، خروجی کاملاً بدون تلفات (Lossless) باقی میماند.
بر اساس مستندات فنی این پروژه، توسعهدهندگان پیش از این میان دو گزینه گیر کرده بودند: پیشنویسهای خودبازگشتی (Autoregressive) که دقیق اما با افزایش اندازه بلوک کند میشدند، و پیشنویسهای موازی (Parallel) که سریع بودند اما با افزایش طول توالی، دچار «تصادم چندوجهی» (Multi-modal collision) میشدند و دقتشان بهسرعت افت میکرد. DSpark با معرفی یک رویکرد نیمهخودبازگشتی این مشکل را حل میکند.
همانطور که در تحلیلهای پیشین ما دربارهی بهینهسازیهای لایهی استنتاج اشاره کردیم، هدف نهایی همیشه کاهش زمان انتظار کاربر است. DSpark برای بهینهسازی یک معادلهی خاص در تأخیر هر توکن طراحی شده است: L = (Tdraft + Tverify) / τ. در اینجا τ نشاندهنده تعداد توکنهای پذیرفتهشده در هر چرخه است. این چارچوب برای افزایش سرعت، سه اهرم را همزمان میکشد: کاهش Tdraft با پیشنویس سریعتر، افزایش τ با پیشنویس دقیقتر و کاهش Tverify با تأیید هوشمندتر.
سازوکار DSpark
این سیستم از یک فرآیند پیشنویس دو مرحلهای برای بیشینهسازی توکنهای پذیرفتهشده در هر چرخه استفاده میکند. ابتدا یک ستون فقرات موازی سنگین (با استفاده از DFlash) لاجیتهای (Logits) پایه را برای هر موقعیت در بلوک تولید میکند. سپس یک سرِ متوالی سبک — که بهصورت پیشفرض یک سر مارکوف (Markov head) است — یک سوگیری وابسته به پیشوند را قبل از نمونهگیری اضافه میکند.
این سر مارکوف تنها توکن بلافاصله قبلی را در نظر میگیرد و با استفاده از تجزیه کمرتبه (Low-rank factorization) با رتبه ۲۵۶، حتی با وجود واژگان گسترده، عملیات را ارزان نگه میدارد. برای مثال، اگر در موقعیت اول کلمه «of» نمونهبرداری شود، این سر احتمال کلمه «course» را بالا برده و «problem» را سرکوب میکند. برای کاربرانی که به دقت بیشتری نیاز دارند، یک سر RNN اختیاری میتواند کل پیشوند بلوک را ردیابی کند، هرچند این گزینه تنها سود اندکی فراهم میکند و بهصورت پیشفرض فعال نیست.
نتیجه سیستمی است که دقت بالای توکن اول در پیشنویس موازی را به ارث میبرد و در عین حال پایداری را در عمق بلوک توکن حفظ میکند. برای دستیابی به این هدف، در مرحله آموزش، مدل هدف منجمد (Freeze) شده و از بردار معنایی (Embedding) و سر خروجی آن مجدداً استفاده میشود تا با بهکارگیری یک تابع زیان تغییرات کلی (Total-variation loss)، فاصله به حداقل و نرخ پذیرش پیشنویس به حداکثر برسد.
بهرهوری سختافزار-آگاه
علاوه بر پیشنویس، DSpark یک سیستم تأیید با زمانبندی اطمینانی (Confidence-scheduled) را معرفی میکند تا از اتلاف چرخههای واحد پردازش گرافیکی (GPU) جلوگیری کند. تأیید توکنهایی که در نهایت رد میشوند یا غیرضروری هستند، در بارهای سنگین باعث اتلاف ظرفیت دستهای (Batch capacity) میشود. این سیستم از دو مؤلفه کلیدی بهره میبرد:
- سر اطمینان (Confidence Head): این مؤلفه احتمال بقای یک توکن پیشنویس در مرحله تأیید را، با توجه به پیشروهای پذیرفتهشده، پیشبینی میکند. این سر توسط نرخ پذیرش تحلیلی در هر گام نظارت (Supervise) میشود.
- مقیاسبندی دمای متوالی (Sequential Temperature Scaling): یک گام کالیبراسیونی پسینی (Post-hoc) که خطای کالیبراسیون مورد انتظار (ECE) را از محدوده ۳ تا ۸ درصد به حدود ۱ درصد کاهش میدهد تا اعتماد بیش از حد (Overconfidence) مدل عصبی اصلاح شود.
این ابزارها به یک زمانبند پیشوند سختافزار-آگاه تزریق میشوند. این زمانبند از یک منحنی توان عملیاتی (Throughput) تحت عنوان SPS(B) استفاده میکند که تنها یکبار در زمان شروع برنامه (Startup) اندازهگیری میشود تا طول تأیید برای هر درخواست را تعیین کند. وقتی GPUها بیکار هستند، سیستم توکنهای بیشتری را تأیید میکند تا سرعت به حداکثر برسد؛ اما در زمان ترافیک بالا، بودجه را کاهش میدهد تا توان عملیاتی کلی حفظ شود. یک قانون توقف زودهنگام (Early-stopping) تضمین میکند که فرآیند بدون تلفات باقی بماند و تیم تحقیقاتی اشاره کردهاند که یک جستجوی سراسری ساده (Naive global search) ممکن بود باعث نشت اطلاعات شود.
بنچمارکها و عملکرد
در آزمایشهای آفلاین روی حوزههای ریاضی، کدنویسی و گفتگو با مدلهای هدف مانند Qwen3-4B, 8B, 14B و Gemma4-12B، مدل DSpark بهطور مداوم از خطبنیادها پیشی گرفت. در مقایسه با Eagle3، میانگین کل (Macro-average) طول پذیرفتهشده در سه اندازه Qwen3 بهترتیب ۳۰.۹٪، ۲۶.۷٪ و ۳۰٪ افزایش یافت. در برابر DFlash نیز دستاوردهای آن بین ۱۶.۳٪ تا ۱۸.۴٪ بود. جالب اینکه یک نسخه ۲ لایهای از DSpark حتی توانست یک نسخه ۵ لایهای از DFlash را شکست دهد.
افزایش طول پیشنویس از ۴ به ۱۶ توکن، تنها ۰.۲ تا ۱.۳ درصد به تأخیر هر دور اضافه میکند، در حالی که طول پذیرفتهشده را تا ۳۰٪ بهبود میبخشد. دادههای عملیاتی از DeepSeek-V4-Flash و V4-Pro تحت ترافیک زنده این نتایج را تأیید میکنند. در توان عملیاتی یکسان، سرعت هر کاربر در مدل Flash بین ۶۰ تا ۸۵ درصد و در مدل Pro بین ۵۷ تا ۷۸ درصد نسبت به MTP-1 افزایش یافت. تیم توسعه این نسخه را تحت عنوان DSpark-5 با بلوک پیشنویس پنج توکنی و استفاده از سر مارکوف عرضه کرده است.
نمونههای کاربردی
بارهای کاری مختلف، مزایای متفاوتی را بسته به ماهیت متن نشان میدهند:
- تولید کد: نرخ پذیرش در اینجا بهطور طبیعی بالاست. زمانبند پیشوندهای طولانی را با اتلاف کم تأیید میکند و اجازه میدهد عاملهای کدنویسی خروجی را سریعتر استریم کنند.
- گفتگوهای باز: یک بررسی جامع روی آستانه اطمینان (Confidence-threshold sweep)، نرخ پذیرش را از ۴۵.۷٪ به ۹۵.۷٪ رساند؛ چراکه سر اطمینان توکنهای پسوند نامطمئن را شناسایی و حذف میکرد.
- استدلال ریاضی: این حوزه بین گفتگو و کد قرار دارد. نرخ پذیرش در اینجا از ۷۶.۹٪ به ۹۲.۵٪ رسید که باعث بهبود ردیابی گامبهگام (Step-by-step traces) در بلوکهای عمیق شد.
- سرویسدهی با همروندی بالا: در بار متوسط، زمانبند حدود ۴ تا ۶ توکن تأیید شده در هر درخواست اجرا میکند و با افزایش همروندی (Concurrency)، این بودجه برای حفظ توان عملیاتی کاهش مییابد.
از منظر فنی، DSpark فرضیات پیشین درباره موازنه بین سرعت پیشنویس و نرخ پذیرش را تغییر میدهد. با افزودن یک لایه متوالی بسیار کوچک به ستون فقرات موازی، ثابت شد که میتوان بدون تحمل هزینه تأخیر خطیِ پیشنویسهای کاملاً خودبازگشتی، به نرخ پذیرش بلوکهای بالا رسید.
علاوه بر این، انتشار DeepSpec تحت مجوز MIT به توسعهدهندگان اجازه میدهد پیشنویسهای خود را آموزش دهند و ارزیابی کنند. فرآیند آموزش شامل سه مرحله است: آمادهسازی داده، آموزش و ارزیابی. کاربران میتوانند نقاط بازرسی (Checkpoint) آموزشدیده را با استفاده از اسکریپتهای ارائه شده روی ۹ مجموعه داده بنچمارک کنند. توجه داشته باشید که حافظه سازنده (Target cache) میتواند بسیار حجیم باشد و در تنظیمات Qwen3-4B به نزدیکی ۳۸ ترابایت برسد.
کاربران اکنون میتوانند این بهینهسازیها را با اتصال ماژولهای پیشنویس DeepSeek-V4-Pro-DSpark یا DeepSeek-V4-Flash-DSpark به وزنهای موجود V4 از طریق Hugging Face ادغام کنند. این سیستم نیازی به بازآموزی مدل هدف ندارد و برای توازن بین تأخیر و توان عملیاتی، با بارهای مختلف GPU قابل تنظیم است.
گام بعدی شما
- اگر از مدلهای V4 در محیط تولید استفاده میکنید، ماژولهای DSpark را از Hugging Face دریافت و روی وزنهای فعلی سوار کنید.
- برای بهینهسازی هزینه GPU، تنظیمات زمانبند سختافزار-آگاه را بر اساس منحنی توان عملیاتی (SPS) محیط خود کالیبره کنید.
- توسعهدهندگان مدلهای کوچک را توصیه میکنیم کدبیس DeepSpec را برای آموزش پیشنویسهای اختصاصی در دامنههای خاص (مانند پزشکی یا حقوقی) بررسی کنند.
اما بهینهسازیهای لایهی حافظه حتی از این سرعتها هم خیرهکنندهتر است — این پیشرفتها در کنار کاهش چشمگیر فشار حافظه KV در معماری FM-DS-V4 که پیشتر بررسی کردیم، بهرهوری مدل V4 را به سطح جدیدی ارتقا داده است. به تحلیل ما دربارهی مدیریت KV Cache در مقیاس بالا مراجعه کنید.




گفتگو