اگر همین حالا برای APIهای مختلف هزینه میپردازید، احتمالاً بخشی از بودجه شما صرف مدلهایی میشود که بیش از نیازتان گران هستند. یک آزمایش ۳۰ روزه روی ۱۸۴ مدل مختلف ثابت کرد که تکیه بر اعداد رسمی شرکتهای سازنده، یک اشتباه مالی منجر به هزینههای اضافی است. یک دانشمند داده با ساخت یک سیستم محک اختصاصی کشف کرد که تغییر از یک مدل واحد به استراتژی «مسیریابی هوشمند» میتواند صورتحساب ماهانه استنتاج (Inference) — همان لحظهای که مدل واقعاً جواب تولید میکند، شبیه به خودِ آشپزی در مقابل دورهی آموزش آشپزی — را بین ۴۰ تا ۶۵ درصد کاهش دهد.
به گزارش وبسایت dev.to، این تحقیق پس از آن آغاز شد که یک مدیر مهندسی متوجه شد هزینههای استنتاج در یک فصل سه برابر شده است، در حالی که کیفیت خروجی و تأخیر داشبوردها تغییری نکرده بود. صنعت امروز به شدت به محکهای «شرایط آزمایشگاهی» متکی است؛ یعنی درخواستهای تکگانه، حافظههای گرم (Warm Caches) و نبود نوسانات شبکه (Network Jitter) که هیچ شباهتی به ترافیک واقعی تولیدات ندارند. این محیطهای استریل باعث میشوند عملکرد واقعی مدلها در محیط تولید (Production) کمتر از حد انتظار باشد. همانطور که در تحلیل قبلی ما دربارهی بهینهسازی هزینههای مدلهای زبانی اشاره کردیم، دادههای خام این پروژه اکنون یک نقشهی راه آماری برای اجرای این تغییر در مقیاس واقعی ارائه میدهد. این یافتهها در واقع مکمل بررسیهای ماست که نشان میداد مدلهای ارزان در ۷۳٪ حجم کاری مشابه عملکردی نزدیک به مدلهای سطحبالا دارند.
شکاف دادههای رسمی و واقعیت
طبق مستندات منتشرشده، اعداد رسمی شرکتها نوسانات ترافیک واقعی را نادیده میگیرند. پژوهشگر برای یافتن حقیقت، حدود ۱۰۰,۰۰۰ درخواست استنتاج را از طریق Global API ارسال کرد و معیارهای توان عملیاتی (Throughput) — یا همان سرعت خروج دادهها —، زمان تا نخستین توکن (Time-to-first-token)، مدت کل درخواست و هزینه واقعی هر میلیون توکن را رصد کرد. قیمت این ۱۸۴ مدل از ۰.۰۱ تا ۳.۵۰ دلار به ازای هر میلیون توکن متغیر بود.
حجم نمونه به قدری بالا بود که خطای استاندارد در اکثر اعداد زیر ۳٪ باقی ماند. این موضوع تضمین میکند که روندهای مشاهدهشده معنادار هستند و صرفاً نویز آماری نیستند. محقق برای استانداردسازی تستها از یک نقطه اتصال (Endpoint) سازگار با OpenAI استفاده کرد تا جابجایی بین ارائهدهندگان سریع باشد و زمان توسعه کاهش یابد. این رویکرد اجازه داد تا بدون تغییر در کد اصلی، مدلهای مختلف در محیطهای تست جایگزین شوند.
توزیع قیمتها و رابطه با کیفیت
یافتهها نشاندهنده تفاوت قیمتی گستردهای بین ۱۸۴ مدل تستشده است. هزینه ورودیها از ۰.۰۱ تا ۳.۵۰ دلار به ازای هر میلیون توکن متغیر بود. در لیست کوتاه پنج مدل اصلی، فاصله بین ارزانترین و گرانترین مدل در ورودی و خروجی ۱۲.۵ برابر بود.
بستههای قیمتی دقیق برای تمامی ۱۸۴ مدل به این شرح است:
- زیر ۰.۵۰ دلار: ۴۷ مدل (میانه خروجی: ۰.۳۰ دلار/میلیون)
- ۰.۵۰ تا ۱.۵۰ دلار: ۶۸ مدل (میانه خروجی: ۰.۹۵ دلار/میلیون)
- ۱.۵۰ تا ۳.۰۰ دلار: ۵۱ مدل (میانه خروجی: ۲.۱۰ دلار/میلیون)
- بالای ۳.۰۰ دلار: ۱۸ مدل (میانه خروجی: ۳.۲۰ دلار/میلیون)
از نظر آماری، محدوده میانی (۰.۵۰ تا ۱.۵۰ دلار) فعالترین بخش است و حدود ۳۷٪ از مدلها را در بر میگیرد. این نشان میدهد که یک انتخاب تصادفی از بین مدلها، به احتمال زیاد در این محدوده قیمتی قرار میگیرد. این تمرکز قیمتی نشاندهنده رقابت شدید در بخش مدلهای میانرده است.
جالب این است که دادهها همبستگی ضعیفی بین قیمت و کیفیت نشان میدهند. اگرچه مدلهای گرانتر بهطور کلی خروجی بهتری دارند، اما این رابطه خطی نیست. در واقع، همبستگی پیرسون (Pearson correlation) بین قیمت هر میلیون توکن خروجی و توان عملیاتی (TPS) منفی بود (r = -۰.۳۱)؛ یعنی مدلهای ارزانتر بهطور مداوم سریعتر بودند. همبستگی بین قیمت و امتیاز کیفیت مثبت اما متوسط بود (r = ۰.۴۲). اساساً، پرداخت هزینه بیشتر کیفیت بهتری میخرد، اما نرخ بازگشت سرمایه (ROI) به سرعت کاهش مییابد و نقطه اشباعی وجود دارد که در آن هزینههای اضافی دیگر تأثیر ملموسی بر کیفیت ندارند.
کالبدشکافی عملکرد مدلها
در این حجم زیاد از داده، میانگین تأخیر (Latency) برای همه ۱۸۴ مدل ۱.۲ ثانیه و میانگین توان عملیاتی ۳۲۰ توکن در ثانیه بود. عملکرد مدلهای خاص تفاوتهای چشمگیری داشت:
- GLM-4 Plus: بالاترین میانگین توان عملیاتی (۳۶۰ توکن/ثانیه) با تأخیر p95 معادل ۰.۸۵ ثانیه. هزینه: ۰.۲۰ دلار ورودی / ۰.۸۰ دلار خروجی با پنجره بافتی (Context Window) ۱۲۸ هزار توکن. امتیاز کیفیت میانگین: ۷۶.۳٪.
- DeepSeek V4 Flash: ۳۴۰ توکن/ثانیه با امتیاز کیفیت ۸۲.۱٪. هزینه: ۰.۲۷ / ۱.۱۰ دلار به ازای هر میلیون توکن با پنجره بافتی ۱۲۸ هزار توکن. تأخیر p95: ۰.۹۵ ثانیه.
- Qwen3-32B: ۳۱۰ توکن/ثانیه با امتیاز کیفیت ۷۹.۸٪. هزینه: ۰.۳۰ / ۱.۲۰ دلار با پنجره بافتی ۳۲ هزار توکن. تأخیر p95: ۱.۱۰ ثانیه.
- DeepSeek V4 Pro: ۲۸۰ توکن/ثانیه و تأخیر p95 معادل ۱.۴۰ ثانیه با امتیاز کیفیت ۸۷.۴٪. هزینه: ۰.۵۵ / ۲.۲۰ دلار به ازای هر میلیون توکن با پنجره بافتی ۲۰۰ هزار توکن.
- GPT-4o: توان عملیاتی پایینتر (۲۲۰ توکن/ثانیه) و تأخیر بالاتر (۱.۸۵ ثانیه)، اما با بالاترین امتیاز کیفیت (۹۱.۲٪). هزینه: ۲.۵۰ / ۱۰.۰۰ دلار با پنجره بافتی ۱۲۸ هزار توکن.
بهای ناکارآمدی
برای تجسم اثر مالی، پژوهشگر حجم کاری ۵۰۰ میلیون توکن خروجی در ماه را پیشبینی کرد. تفاوت هزینهها تکاندهنده است:
- GLM-4 Plus: ۴۰۰ دلار/ماه
- DeepSeek V4 Flash: ۵۵۰ دلار/ماه
- Qwen3-32B: ۶۰۰ دلار/ماه
- DeepSeek V4 Pro: ۱,۱۰۰ دلار/ماه
- GPT-4o: ۵,۰۰۰ دلار/ماه
با استفاده از مسیریابی هوشمند — ارسال پرامپتهای سخت و پیچیده به DeepSeek V4 Pro و پرسشهای ساده (Long Tail) به DeepSeek V4 Flash — هزینه ترکیبی از ۱.۴۰ دلار به حدود ۰.۸۵ دلار به ازای هر میلیون توکن خروجی کاهش یافت. این یعنی در یک سطح کیفی مشابه (با ۸۴.۶٪ تطابق در محک)، هزینهها ۴۰ تا ۶۵ درصد کمتر میشود. این نتایج ثابت میکند که استفاده از گرانترین مدل برای تمام درخواستها، یک اتلاف منابع است. چنین رویکردی در مدیریت هزینهها میتواند زیربنای مدلهای تجاری باشد، مشابه آنچه در استراتژی درآمدزایی از API مشاهده کردیم که در آن بهینهسازی زیرساخت پرداخت بر کدنویسی پیچیده اولویت داشت.
مکانیزمهای بهینهسازی مهندسی
دادههای حاصل از ۱۰۰,۰۰۰ درخواست، چندین بهینهسازی آماری معنادار را فاش کرد. این نتایج بر اساس «حس» نیستند، بلکه بر پایه شواهد ثبتشده هستند:
- کشینگ (Caching): اثرگذارترین بهینهسازی است. نرخ اصابت (Hit Rate) ۴۰ درصدی در کش، صورتحساب موثر را ۳۸.۲٪ بدون هیچ افت کیفی کاهش داد. همبستگی بین نرخ اصابت و صرفهجویی در هزینه r = ۰.۹۴ بود که نشاندهنده رابطه مستقیم و بسیار قوی میان این دو متغیر است.
- مسیریابی هوشمند: ارسال پرسشهای ساده (بهطور خاص موارد زیر ۵۰۰ توکن ورودی) به سطح اقتصادی (GA-Economy) در Global API، هزینهها را ۵۰٪ کم کرد؛ در حالی که تفاوت کیفیت اندازهگیری شده در مجموعه محک تنها ۴.۳٪- بود. این یعنی برای اکثر کاربرها، این افت کیفیت اصلاً محسوس نیست.
- مدیریت جایگزین (Fallback): برای قابلیت اطمینان حیاتی است. حدود ۲.۱٪ درخواستها با خطای محدودیت نرخ (Rate Limit) یا خطاهای گذرا مواجه شدند. بدون مدل جایگزین، این به معنای ۲,۱۰۰ شکست در هر ۱۰۰ هزار درخواست بود. با پیکربندی Fallback، نرخ خطای مشاهدهشده برای کاربر به ۰.۰۳٪ رسید که پایداری سیستم را به شدت افزایش میدهد.
- استریمینگ (Streaming): اگرچه زمان کل تا تکمیل پاسخ را تغییر نمیدهد، اما تأخیر ادراکشده را کم میکند. کاربران در تستهای داخلی، پاسخهای استریمشده را ۲۳٪ پاسخگوتر ارزیابی کردند (p < 0.01). این موضوع تجربه کاربری (UX) را بهبود میبخشد بدون اینکه نیاز به سختافزار سریعتر باشد.
- پایش کیفیت: رصد رضایت کاربران در مقابل مسیریابی بهینهشده، همبستگی منفی اما اندکی (r = -۰.۱۸) بین رضایت و استفاده از مدلهای ارزان نشان داد. این تأیید میکند که تا زمانی که اندازهگیری مداوم باشد، میتوان بدون تخریب کیفیت، در هزینه صرفهجویی کرد و کاربران متوجه استفاده از مدلهای ارزانتر نمیشوند.
بازتولید محک و انتخاب پویا
برای کسانی که میخواهند این نتایج را بازتولید کنند، نویسنده یک چارچوب عملی ارائه میدهد. هسته این سیستم یک تابع timed_inference است که از time.perf_counter() برای اندازهگیری دقیق تأخیر ساعت دیواری (Wall-clock latency) استفاده میکند و توکنها را از شیء usage پاسخ استخراج میکند تا توکن بر ثانیه را محاسبه کند.
یک چارچوب جامعتر شامل یک ThreadPoolExecutor است تا چندین مدل را بهصورت موازی روی مجموعهای از پرامپتهای استاندارد اجرا کند. این پرامپتها شامل کارهایی مانند خلاصهسازی اثر هملت، نوشتن توابع فیبوناتچی یا توضیح درهمتنیدگی کوانتومی هستند. برای رسیدن به معناداری آماری، محقق توصیه میکند:
- اجرای حداقل ۵۰ آزمایش برای هر جفت (مدل، پرامپت).
- این کار برای پایین آوردن خطای استاندارد در میانه تأخیر به زیر ۵٪ ضروری است تا نتایج قابل اعتماد باشند.
- رصد تأخیر p95 (صدک ۹۵ام) برای درک بدترین حالت تجربه کاربر و شناسایی نقاط کور عملکردی.
یکی از حیاتیترین یافتهها این است که «بهترین مدل» یک هدف متحرک است. پژوهشگر این چارچوب محک را سه بار در طول مطالعه اجرا کرد و رتبهبندی مدلها دو بار تغییر کرد. این یعنی انتخاب مدل نباید یک تصمیم یکباره در زمان توسعه باشد، بلکه سازمانها باید انتخاب مدل را به عنوان یک فرآیند مستمر ببینند و حلقههای بنچمارک را مستقیماً در خط لولههای CI/CD خود ادغام کنند. در این راستا، ایجاد مستندات بهینهشده برای ماشینها میتواند شرط لازمی برای ارتقای عملکرد عاملها (Agents) در چنین محیطهای پویایی باشد.
همبستگی بین نمرات کلی محکها و عملکرد واقعی روی یک حجم کاری واقعی بین ۰.۵ تا ۰.۷ تخمین زده میشود. این نمرات مفیدند اما «سرنوشت» نهایی نیستند و نباید تنها معیار تصمیمگیری باشند. این تغییر دیدگاه، زیرساخت هوش مصنوعی را از انتخاب بر اساس «حس» (Vibes) به سمت تحلیل توزیع مشترک هزینه، تأخیر و کیفیت میبرد. وقتی نمرات کلی محکها تنها همبستگی اندکی با عملکرد واقعی دارند، تلهمتری سفارشی تنها راه قابل اعتماد برای حفاظت از بودجه است.
نتایج نهایی
بعد از سی روز و ۱۰۰,۰۰۰ درخواست، اعداد داستان واضحی را میگویند. محکهای توان عملیاتی APIهای هوش مصنوعی یک تجمل نیستند، بلکه تفاوت بین یک صورتحساب ماهانه ۵,۰۰۰ دلاری و ۱,۷۵۰ دلاری هستند. کاهش هزینه ۴۰ تا ۶۵ درصدی واقعی است، تأخیر میانگین ۱.۲ ثانیهای بازتولیدپذیر است و عدد توان عملیاتی ۳۲۰ توکن در ثانیه تحت فشار ترافیک پایداری میکند.
اگر شما مدیریت استنتاجهای حجیم را بر عهده دارید، گام بعدی اعتبارسنجی این اعداد در برابر توزیع پرامپتهای خاص خودتان است. استفاده از یک نقطه اتصال واحد، مانند global-apis.com/v1، اجازه جابجایی سریع مدلها را بدون نیاز به بازسازی کل استک فنی میدهد. این یک راه ارزان برای تعیین این است که آیا این یافتههای خاص برای حجم کاری تولیدی منحصربهفرد شما نیز صادق است یا خیر.
گام بعدی شما
- توزیع پرامپتهای خود را تحلیل کنید تا حجم «پرسشهای ساده» در برابر «پرسشهای پیچیده» مشخص شود.
- یک لایه مسیریابی (Router) ساده برای توزیع ترافیک بین یک مدل ارزان (مانند DeepSeek Flash) و یک مدل پرمیوم پیاده کنید.
- نرخ اصابت کش (Cache Hit Rate) خود را رصد کرده و برای کاهش مستقیم هزینه، استراتژیهای ذخیرهسازی پاسخها را تقویت کنید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو