DeepSeek: افزایش سرعت استنتاج V4 از طریق پیش‌نویس‌های موازی

منبع خبر

۱ دقیقه پیش·۶ تیر ۱۴۰۵۶ دقیقه مطالعه

چارچوب رمزگشایی سوداگرانه دی‌اسپارک دیپ‌سیک با شتاب ۶۰ تا ۸۵ درصدی تولید برای هر کاربر نسبت به ام‌تی‌پی-۱

اشتراک‌گذاری

سرعت استنتاج در محیط عملیاتی ۶۰ تا ۸۵ درصد افزایش یافت. این جهش عملکردی در مدل‌های DeepSeek-V4 نسبت به خط‌بنیاد MTP-1، طبق تحلیل فنی وب‌سایت marktechpost.com، حاصل به‌کارگیری DSpark است؛ یک چارچوب جدید برای رمزگشایی گمانه‌زنانه (Speculative Decoding) که همراه با کدبیس متن‌باز DeepSpec عرضه شده است.

رمزگشایی گمانه‌زنانه تکنیکی حیاتی برای رفع گلوگاه استنتاج در مدل‌های بزرگ هنگام ترافیک بالا است. در یک ساختار استاندارد، یک مدل عظیم توکن‌ها را یکی‌یکی تولید می‌کند که از نظر محاسباتی بسیار گران است. در این روش، فرآیند به دو نقش تقسیم می‌شود: یک مدل کوچک «پیش‌نویس» (Draft model) بلوکی از توکن‌ها را پیشنهاد می‌دهد و مدل هدفِ اصلی، آن‌ها را در یک گذر پیش‌رو (Forward Pass) تأیید می‌کند. در این مرحله، از روش «نمونه‌برداری رد» (Rejection Sampling) استفاده می‌شود تا طولانی‌ترین پیشوند معتبر پذیرفته شده و یک توکن جایزه به آن اضافه شود. از آن‌جا که این قانون توزیع هدف را دقیقاً حفظ می‌کند، خروجی کاملاً بدون تلفات (Lossless) باقی می‌ماند.

بر اساس مستندات فنی این پروژه، توسعه‌دهندگان پیش از این میان دو گزینه گیر کرده بودند: پیش‌نویس‌های خودبازگشتی (Autoregressive) که دقیق اما با افزایش اندازه بلوک کند می‌شدند، و پیش‌نویس‌های موازی (Parallel) که سریع بودند اما با افزایش طول توالی، دچار «تصادم چندوجهی» (Multi-modal collision) می‌شدند و دقتشان به‌سرعت افت می‌کرد. DSpark با معرفی یک رویکرد نیمه‌خودبازگشتی این مشکل را حل می‌کند.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی بهینه‌سازی‌های لایه‌ی استنتاج اشاره کردیم، هدف نهایی همیشه کاهش زمان انتظار کاربر است. DSpark برای بهینه‌سازی یک معادله‌ی خاص در تأخیر هر توکن طراحی شده است: L = (Tdraft + Tverify) / τ. در اینجا τ نشان‌دهنده تعداد توکن‌های پذیرفته‌شده در هر چرخه است. این چارچوب برای افزایش سرعت، سه اهرم را هم‌زمان می‌کشد: کاهش Tdraft با پیش‌نویس سریع‌تر، افزایش τ با پیش‌نویس دقیق‌تر و کاهش Tverify با تأیید هوشمندتر.

سازوکار DSpark

این سیستم از یک فرآیند پیش‌نویس دو مرحله‌ای برای بیشینه‌سازی توکن‌های پذیرفته‌شده در هر چرخه استفاده می‌کند. ابتدا یک ستون فقرات موازی سنگین (با استفاده از DFlash) لاجیت‌های (Logits) پایه را برای هر موقعیت در بلوک تولید می‌کند. سپس یک سرِ متوالی سبک — که به‌صورت پیش‌فرض یک سر مارکوف (Markov head) است — یک سوگیری وابسته به پیشوند را قبل از نمونه‌گیری اضافه می‌کند.

این سر مارکوف تنها توکن بلافاصله قبلی را در نظر می‌گیرد و با استفاده از تجزیه کم‌رتبه (Low-rank factorization) با رتبه ۲۵۶، حتی با وجود واژگان گسترده، عملیات را ارزان نگه می‌دارد. برای مثال، اگر در موقعیت اول کلمه «of» نمونه‌برداری شود، این سر احتمال کلمه «course» را بالا برده و «problem» را سرکوب می‌کند. برای کاربرانی که به دقت بیشتری نیاز دارند، یک سر RNN اختیاری می‌تواند کل پیشوند بلوک را ردیابی کند، هرچند این گزینه تنها سود اندکی فراهم می‌کند و به‌صورت پیش‌فرض فعال نیست.

نتیجه سیستمی است که دقت بالای توکن اول در پیش‌نویس موازی را به ارث می‌برد و در عین حال پایداری را در عمق بلوک توکن حفظ می‌کند. برای دستیابی به این هدف، در مرحله آموزش، مدل هدف منجمد (Freeze) شده و از بردار معنایی (Embedding) و سر خروجی آن مجدداً استفاده می‌شود تا با به‌کارگیری یک تابع زیان تغییرات کلی (Total-variation loss)، فاصله به حداقل و نرخ پذیرش پیش‌نویس به حداکثر برسد.

بهره‌وری سخت‌افزار-آگاه

علاوه بر پیش‌نویس، DSpark یک سیستم تأیید با زمان‌بندی اطمینانی (Confidence-scheduled) را معرفی می‌کند تا از اتلاف چرخه‌های واحد پردازش گرافیکی (GPU) جلوگیری کند. تأیید توکن‌هایی که در نهایت رد می‌شوند یا غیرضروری هستند، در بارهای سنگین باعث اتلاف ظرفیت دسته‌ای (Batch capacity) می‌شود. این سیستم از دو مؤلفه کلیدی بهره می‌برد:

سر اطمینان (Confidence Head): این مؤلفه احتمال بقای یک توکن پیش‌نویس در مرحله تأیید را، با توجه به پیش‌روهای پذیرفته‌شده، پیش‌بینی می‌کند. این سر توسط نرخ پذیرش تحلیلی در هر گام نظارت (Supervise) می‌شود.
مقیاس‌بندی دمای متوالی (Sequential Temperature Scaling): یک گام کالیبراسیونی پس‌ینی (Post-hoc) که خطای کالیبراسیون مورد انتظار (ECE) را از محدوده ۳ تا ۸ درصد به حدود ۱ درصد کاهش می‌دهد تا اعتماد بیش از حد (Overconfidence) مدل عصبی اصلاح شود.

این ابزارها به یک زمان‌بند پیشوند سخت‌افزار-آگاه تزریق می‌شوند. این زمان‌بند از یک منحنی توان عملیاتی (Throughput) تحت عنوان SPS(B) استفاده می‌کند که تنها یک‌بار در زمان شروع برنامه (Startup) اندازه‌گیری می‌شود تا طول تأیید برای هر درخواست را تعیین کند. وقتی GPUها بیکار هستند، سیستم توکن‌های بیشتری را تأیید می‌کند تا سرعت به حداکثر برسد؛ اما در زمان ترافیک بالا، بودجه را کاهش می‌دهد تا توان عملیاتی کلی حفظ شود. یک قانون توقف زودهنگام (Early-stopping) تضمین می‌کند که فرآیند بدون تلفات باقی بماند و تیم تحقیقاتی اشاره کرده‌اند که یک جستجوی سراسری ساده (Naive global search) ممکن بود باعث نشت اطلاعات شود.

بنچمارک‌ها و عملکرد

در آزمایش‌های آفلاین روی حوزه‌های ریاضی، کدنویسی و گفتگو با مدل‌های هدف مانند Qwen3-4B, 8B, 14B و Gemma4-12B، مدل DSpark به‌طور مداوم از خط‌بنیادها پیشی گرفت. در مقایسه با Eagle3، میانگین کل (Macro-average) طول پذیرفته‌شده در سه اندازه Qwen3 به‌ترتیب ۳۰.۹٪، ۲۶.۷٪ و ۳۰٪ افزایش یافت. در برابر DFlash نیز دستاوردهای آن بین ۱۶.۳٪ تا ۱۸.۴٪ بود. جالب این‌که یک نسخه ۲ لایه‌ای از DSpark حتی توانست یک نسخه ۵ لایه‌ای از DFlash را شکست دهد.

افزایش طول پیش‌نویس از ۴ به ۱۶ توکن، تنها ۰.۲ تا ۱.۳ درصد به تأخیر هر دور اضافه می‌کند، در حالی که طول پذیرفته‌شده را تا ۳۰٪ بهبود می‌بخشد. داده‌های عملیاتی از DeepSeek-V4-Flash و V4-Pro تحت ترافیک زنده این نتایج را تأیید می‌کنند. در توان عملیاتی یکسان، سرعت هر کاربر در مدل Flash بین ۶۰ تا ۸۵ درصد و در مدل Pro بین ۵۷ تا ۷۸ درصد نسبت به MTP-1 افزایش یافت. تیم توسعه این نسخه را تحت عنوان DSpark-5 با بلوک پیش‌نویس پنج توکنی و استفاده از سر مارکوف عرضه کرده است.

نمونه‌های کاربردی

بارهای کاری مختلف، مزایای متفاوتی را بسته به ماهیت متن نشان می‌دهند:

تولید کد: نرخ پذیرش در اینجا به‌طور طبیعی بالاست. زمان‌بند پیشوندهای طولانی را با اتلاف کم تأیید می‌کند و اجازه می‌دهد عامل‌های کدنویسی خروجی را سریع‌تر استریم کنند.
گفتگوهای باز: یک بررسی جامع روی آستانه اطمینان (Confidence-threshold sweep)، نرخ پذیرش را از ۴۵.۷٪ به ۹۵.۷٪ رساند؛ چراکه سر اطمینان توکن‌های پسوند نامطمئن را شناسایی و حذف می‌کرد.
استدلال ریاضی: این حوزه بین گفتگو و کد قرار دارد. نرخ پذیرش در اینجا از ۷۶.۹٪ به ۹۲.۵٪ رسید که باعث بهبود ردیابی گام‌به‌گام (Step-by-step traces) در بلوک‌های عمیق شد.
سرویس‌دهی با هم‌روندی بالا: در بار متوسط، زمان‌بند حدود ۴ تا ۶ توکن تأیید شده در هر درخواست اجرا می‌کند و با افزایش هم‌روندی (Concurrency)، این بودجه برای حفظ توان عملیاتی کاهش می‌یابد.

از منظر فنی، DSpark فرضیات پیشین درباره موازنه بین سرعت پیش‌نویس و نرخ پذیرش را تغییر می‌دهد. با افزودن یک لایه متوالی بسیار کوچک به ستون فقرات موازی، ثابت شد که می‌توان بدون تحمل هزینه تأخیر خطیِ پیش‌نویس‌های کاملاً خودبازگشتی، به نرخ پذیرش بلوک‌های بالا رسید.

علاوه بر این، انتشار DeepSpec تحت مجوز MIT به توسعه‌دهندگان اجازه می‌دهد پیش‌نویس‌های خود را آموزش دهند و ارزیابی کنند. فرآیند آموزش شامل سه مرحله است: آماده‌سازی داده، آموزش و ارزیابی. کاربران می‌توانند نقاط بازرسی (Checkpoint) آموزش‌دیده را با استفاده از اسکریپت‌های ارائه شده روی ۹ مجموعه داده بنچمارک کنند. توجه داشته باشید که حافظه سازنده (Target cache) می‌تواند بسیار حجیم باشد و در تنظیمات Qwen3-4B به نزدیکی ۳۸ ترابایت برسد.

کاربران اکنون می‌توانند این بهینه‌سازی‌ها را با اتصال ماژول‌های پیش‌نویس DeepSeek-V4-Pro-DSpark یا DeepSeek-V4-Flash-DSpark به وزن‌های موجود V4 از طریق Hugging Face ادغام کنند. این سیستم نیازی به بازآموزی مدل هدف ندارد و برای توازن بین تأخیر و توان عملیاتی، با بارهای مختلف GPU قابل تنظیم است.

گام بعدی شما

اگر از مدل‌های V4 در محیط تولید استفاده می‌کنید، ماژول‌های DSpark را از Hugging Face دریافت و روی وزن‌های فعلی سوار کنید.
برای بهینه‌سازی هزینه GPU، تنظیمات زمان‌بند سخت‌افزار-آگاه را بر اساس منحنی توان عملیاتی (SPS) محیط خود کالیبره کنید.
توسعه‌دهندگان مدل‌های کوچک را توصیه می‌کنیم کدبیس DeepSpec را برای آموزش پیش‌نویس‌های اختصاصی در دامنه‌های خاص (مانند پزشکی یا حقوقی) بررسی کنند.

اما بهینه‌سازی‌های لایه‌ی حافظه حتی از این سرعت‌ها هم خیره‌کننده‌تر است — این پیشرفت‌ها در کنار کاهش چشمگیر فشار حافظه KV در معماری FM-DS-V4 که پیش‌تر بررسی کردیم، بهره‌وری مدل V4 را به سطح جدیدی ارتقا داده است. به تحلیل ما درباره‌ی مدیریت KV Cache در مقیاس بالا مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.