۸۵ درصد. این عدد، حداکثر جهش سرعت پاسخدهی در مدلهای DeepSeek است که حالا به لطف چارچوبی به نام DSpark ممکن شده است. به گزارش وبسایت the-decoder.com در ۳۰ ژوئن ۲۰۲۶، این بهروزرسانی با تغییر نحوه تولید متن، زمان انتظار کاربران را بهطور چشمگیری کاهش داده و بهبودهایی بین ۶۰ تا ۸۵ درصد ایجاد کرده است.
بسیاری از مدلهای زبانی بزرگ (LLM) — مثل کتابخانهداری که میلیاردها صفحه را خوانده و حالا با همان لحن کتابها جواب میدهد — متن را کلمه به کلمه تولید میکنند. این روش باعث میشود ظرفیت واحد پردازش گرافیکی (GPU) هدر رود و پاسخهای طولانی کند شوند. برای حل این مشکل، DeepSeek از تکنیکی به نام رمزگشایی گمانهزنانه (Speculative Decoding) استفاده کرد؛ در این روش، یک مدل کوچک و سبک، پاسخهای احتمالی را پیشنهاد میدهد و یک مدل بزرگتر، آنها را بهصورت دستهای تأیید میکند.

همانطور که در تحلیلهای پیشین ما دربارهی بهینهسازی هزینههای استنتاج اشاره کردیم، کاهش تأخیر بدون افت کیفیت، کلید پذیرش انبوه هوش مصنوعی است. این تمرکز بر ارتقای دقت و کارایی در پردازش دادهها، مشابه رویکردی است که در توسعه مدل OCR 4 برای درک ساختاری اسناد شاهد بودیم تا نتایج دقیقتری در زمان کوتاهتر حاصل شود. طبق مستندات فنی، DSpark کارایی را از طریق سه سازوکار ارتقا میدهد:
- تولید گروهی: بهجای تولید تکتک توکنها (Token) — تکههای کوچکی از متن شبیه برشهای یک کیک — گروههای کوچکی از کلمات تولید میشوند.
- تأیید پویا: سیستمی مبتنی بر اطمینان که میزان دقت بررسی پیشنهادها را بر اساس فشار محاسباتی لحظهای تنظیم میکند.
- سازگاری گسترده: آزمایشها نشان میدهند DSpark با مدلهای خارجی نظیر Gemma از Google DeepMind و Qwen از Alibaba نیز سازگار است.

این چارچوب و مدل DeepSeek-V4-Pro که با همکاری دانشگاه پکن ساخته شده، اکنون تحت مجوز MIT در گیتهاب و هگینگفیس بهصورت وزنهای باز (Open Weights) منتشر شدهاند. بر اساس نتایج تستهای رودررو، مدل پیشنویس DSpark در تمامی دستهها از جایگزینهایی مثل Eagle3 و DFlash پیشی گرفته است.
برای چین و اتحادیه اروپا، این دستاورد یک سپر استراتژیک است. آنها میتوانند با استخراج عملکرد بیشتر از تراشههای کمتر، فشار تحریمهای صادراتی آمریکا را دور بزنند. اگرچه پارادوکس جِونز میگوید افزایش بهرهوری معمولاً تقاضای کل برای محاسبات را بالا میبرد، اما اثر فوری این تحول، تضعیف اهرمهای سختافزاری ایالات متحده در معادلات ژئوپلیتیک است.
گام بعدی شما
- توسعهدهندگان میتوانند DSpark را از طریق گیتهاب در سیستمهای سرویسدهی خود ادغام کنند تا کاهش تأخیر را بسنجند.
- تحلیل کنید که آیا این سرعت بالاتر، نیاز شما به مدلهای کوچکتر را در لبهی شبکه (Edge) کاهش میدهد یا خیر.
- تغییرات آتی در استقرار مدلهای غولپیکر در مناطقی با محدودیت سختافزاری را زیر نظر بگیرید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است؛ اثر این بهینهسازی بر مصرف انرژی را در گزارش بعدی بررسی خواهیم کرد.




گفتگو