اگر امروز بودجه استنتاج خود را بر اساس نرخهای ثابت تنظیم کردهاید، باید برای یک شوک ۱۰۰ درصدی در ساعات شلوغ آماده شوید. شرکت DeepSeek قصد دارد با معرفی مدلهای سری V4، مفهوم «ساعات اوج و کاهش» را به دنیای APIهای هوش مصنوعی بیاورد.
طبق گزارش ۲۹ ژوئن BlockBeats، این مکانیسم قیمتگذاری پویا همزمان با عرضه مدلهای V4 در اواسط جولای ۲۰۲۶ فعال میشود. این استراتژی شبیه به نحوه مدیریت شبکههای برق در شرکتهای برق است؛ جایی که در ساعات پرمصرف، قیمت هر کیلووات برق بیشتر میشود تا تقاضا مدیریت شود. این رویکرد در واقع تکامل یافتهی مدلهای پرداخت بر اساس مصرف است که پیشتر در تغییر استراتژی مایکروسافت برای Copilot Cowork مورد بررسی قرار گرفت. همانطور که در تحلیلهای قبلی ما دربارهی چالشهای مقیاسپذیری مرکز دادهها اشاره کردیم، مدیریت بار سرورها اکنون به بزرگترین ریسک تجاری برای توسعهدهندگانی تبدیل شده که مدل زبانی بزرگ (LLM) — مثل کتابخانهداری که میلیاردها صفحه را خوانده و حالا با همان لحن جواب میدهد — را در محیطهای عملیاتی واقعی به کار میگیرند.
بر اساس مستندات منتشرشده، این ساختار جدید دو مدل خاص را هدف قرار میدهد:
- deepseek-v4-pro (نسخه با کارایی بالا): هزینه خروجی معمولی ۱ میلیون توکن (Token) — تکههای کوچکی از متن، شبیه برشهای یک کیک طولانی — ۶ یوان است که در ساعات پیک به ۱۲ یوان میرسد. هزینه برخورد با حافظه موقت (Cache Hit) ۰.۰۲۵ و عدم برخورد آن ۳ یوان است.
- deepseek-v4-flash (نسخه سبک): نرخ خروجی از ۲ یوان به ۴ یوان در ساعات پیک افزایش مییابد. هزینه برخورد با حافظه موقت در حالت عادی ۰.۰۲ و در پیک ۰.۰۴ یوان است.
در حالی که DeepSeek با این مدل قیمتگذاری پویا سعی در بهینهسازی منابع دارد، رقابت بر سر هزینههای استنتاج همچنان شدید است؛ چنانکه تفاوتهای قیمتی میان ارائهدهندگانی چون DeepInfra و OpenAI نشان میدهد که قیمت ارزان همواره با محدودیتهایی در پنجره متنی همراه است.
این بازههای زمانی پیک بهطور روزانه از ساعت ۹ تا ۱۲ و از ۱۴ تا ۱۸ به وقت پکن تعریف شدهاند. با این تغییر، دسترسی به API از یک کالای ثابت به یک دارایی منعطف تبدیل میشود. کسبوکارها اکنون میتوانند با انتقال پردازشهای غیرفوری — مثل پاکسازی دادهها یا تولید دادههای مصنوعی (Synthetic Data) — به ساعات کمترافیک، نرخ هزینههای خود را بهشدت کاهش دهند.
گام بعدی شما
- زمانبندی فراخوانیهای API خود را بازبینی کنید تا با افزایش ناگهانی هزینهها در ساعات پیک مواجه نشوید.
- پردازشهای دستهای (Batch Processing) حجیم را به ساعات بازه کمترافیک منتقل کنید.
- یادداشتهای رسمی انتشار در اواسط جولای را برای بررسی تفاوت قیمتها در مناطق مختلف دنبال کنید.
اما این تغییر در قیمتگذاری تنها بخشی از استراتژی جدید است؛ تأثیر این مدل بر کاهش تأخیر در استنتاجهای پیچیده را در گزارش بعدی بررسی خواهیم کرد.




گفتگو