اگر امروز بودجهتان را صرف توکنهای مدلهای زبانی میکنید، احتمالاً برای خدمات مسیریابی میپردازید، نه خودِ مدل. باید بدانید که بسیاری از توسعهدهندگان در حال حاضر مبلغی بیش از قیمت واقعی استنتاج پرداخت میکنند چون لایههای پنهان بین کاربر و موتور استنتاج، هزینهها را بالا میبرند. شفافیت در قیمتگذاری مدلهای با وزن باز (Open-weight models) اکنون به میدان نبرد اصلی در ابزارهای توسعه تبدیل شده است.
طبق گزارشی که در ۲۶ ژوئن ۲۰۲۶ در وبسایت dev.to منتشر شد، این تفاوت قیمت دقیقاً شبیه خرید بلیط هواپیما است؛ شما میتوانید بلیط را مستقیم از خطوط هوایی بخرید یا از یک آژانس مسافرتی استفاده کنید که مبلغی را بهعنوان «هزینه خدمات» اضافه میکند. در حالی که تجمیعکنندهها راحتی بیشتری میدهند، این «مالیات پنهان» روی توکنها میتواند سود خالص گردشکارهای عاملمحور (Agentic Workflows) را در مقیاس بالا بهشدت کاهش دهد. این چالشها در مدیریت هزینهها، ما را به یاد استراتژیهای پیشرفتهای برای کاهش هزینههای استنتاج میاندازد که در تحلیلهای پیشین بررسی کردیم.
همانطور که در تحلیل قبلی ما دربارهی اقتصاد توکنها اشاره کردیم، رقابت اکنون از کیفیت مدلها به سمت شفافیت قیمتها در مدلهای با وزنهای باز (Open Weights) — یعنی مدلهایی که دستور پختشان علناً منتشر شده و نه فقط غذای آماده — منتقل شده است.
زمینه و فضای بازار
در سال ۲۰۲۶، توسعهدهندگان روشهای متعددی برای دسترسی به توکنهای مدل زبانی بزرگ (LLM) — شبیه کتابخانهداری که میلیاردها صفحه را خوانده و حالا با همان لحن جواب میدهد — در اختیار دارند. دسترسی به این توکنها از سه مسیر ممکن است: برخی پلتفرمها بهعنوان تجمیعکننده عمل میکنند، برخی استنتاج (Inference) را روی سرورهای خودشان اجرا میکنند و برخی دیگر صرفاً نقش یک بازارگاه را بازی میکنند. تنش اصلی در این اکوسیستم، تضاد بین «دستیابی به حداکثر تنوع مدلها» و «شفافیت کامل در هزینههای خام» است.
OpenModels خود را بهعنوان یک بازارگاه واقعی معرفی میکند. این پلتفرم یک کلید API واحد و سازگار با OpenAI ارائه میدهد و سیاست سختگیرانهای مبنی بر «عدم اعمال کارمزد» (No-markup policy) روی نرخ ارائهدهندگان دارد. توسعهدهندگان با استفاده از اعتبار پیشپرداخت، میتوانند به مدلهایی دسترسی پیدا کنند که قیمتهای ورودی و خروجی آنها بهطور شفاف منتشر شده است.
جزئیات فنی و مکانیسمهای OpenModels
عملکرد این پلتفرم بر پایه محورهای زیر است:
- قیمتگذاری شفاف: نرخهای ورودی و خروجی برای هر مدل بهصورت مجزا منتشر میشود و هیچ کارمزد مسیریابیکنندهای (Routing markup) به نرخهای ارائهدهنده اضافه نمیگردد.
- مدل صورتحساب: تمامی هزینههای مصرفی مستقیماً از اعتبار پیشپرداخت (Prepaid credits) کاربر کسر میشود.
- مقیاسپذیری آتی: چشمانداز بلندمدت این پلتفرم اجازه میدهد تا در نهایت، خود کاربران نیز بتوانند در این سیستم بهعنوان ارائهدهنده (Provider) خدمات استنتاج حضور یابند و مدلهای خود را عرضه کنند.
- مثال مدل GLM-5.2: برای درک بهتر، در فید قیمتگذاری ژوئن ۲۰۲۶، مدل GLM-5.2 با نرخ ۱.۱۸ دلار بهازای هر ۱ میلیون توکن ورودی و ۴.۱۴ دلار بهازای هر ۱ میلیون توکن خروجی لیست شده است.

در مقابل، OpenRouter اولویت را به «گستردگی» میدهد تا «هزینه خالص». این سرویس در حال حاضر میزبان بیش از ۵۰۰ مدل است، که طیف وسیعی از مدلهای باز و مدلهای پیشروی بسته (Closed frontier models) از شرکتهایی مثل OpenAI و Anthropic را شامل میشود. اما این راحتی و دسترسی سریع، هزینههای خاصی را به همراه دارد:
- هنگام خرید اعتبار، کارمزدی معادل ۵.۵٪ اعمال میشود.
- در حالت استفاده از «کلید خودت را بیاور» (Bring-your-own-key)، پس از اولین میلیون درخواست ماهانه، کارمزدی ۵ درصدی بر روی استفادهها اعمال میگردد.
به دلیل وجود این کارمزدها، توسعهدهندگان در نهایت برای دسترسی به همان مدلهای با وزن باز، مبلغی بیشتر از قیمت خام ارائهدهنده پرداخت میکنند.
خلاصه مقایسهای
- OpenModels: بهترین گزینه برای کسانی است که پایینترین هزینه و شفافیت قیمت را بدون پرداخت کارمزدهای مسیریابی اولویت میدانند. این پلتفرم در زمینه قیمتگذاری شفاف مدلهای باز، برنده است.
- OpenRouter: بهترین انتخاب برای نمونهسازی (Prototyping) سریع در میان حداکثری از مدلها، از جمله گزینههای کد-بسته است. این سرویس همچنان مرجع اصلی برای تنوع بالای مدلهاست.
- ارائهدهندگان جایگزین: سرویسهای Together AI و Fireworks برای کسانی که به دنبال استنتاج دست اول (First-party) یا نقاط اتصال اختصاصی (Dedicated endpoints) هستند، ترجیح داده میشوند. همچنین DeepInfra بهعنوان یک گزینه بدونسرور (Serverless) تمیز و ارزانقیمت شناخته میشود. در این میان، تلاش شرکتهایی چون DeepSeek برای تغییر کف هزینههای پردازشی تأثیر زیادی بر رقابت این ارائهدهندگان داشته است.
این تغییر رویکرد نشاندهنده بلوغ «اقتصاد توکن» است، جایی که محاسبات خام (Raw compute) در حال تبدیل شدن به یک کالا (Commodity) است. وقتی توکنهای خروجی تقریباً ۳.۵ برابر گرانتر از ورودی هستند — همانطور که در مدل GLM-5.2 مشاهده شد — حتی یک کارمزد مسیریابی ۵ درصدی، برای عاملهایی (Agents) که حجم عظیمی از متن تولید میکنند، تبدیل به یک ردیف هزینه سنگین در صورتحساب میشود. مدیریت این هزینهها در لایه کنترلی، موضوعی است که در بررسی رقابت میان ابزارهایی چون OpenClaw و Hermes نیز مورد توجه قرار گرفت.
برای یک توسعهدهنده، انتخاب اکنون بین تجربه «هایپرمارکتی» OpenRouter و شفافیت «مستقیم از منبع» در OpenModels است. با رشد این بازارگاهها، قابلیت تبدیل شدن کاربران به ارائهدهندگان در OpenModels میتواند نحوه فروش استنتاج هوش مصنوعی را بیش از پیش غیرمتمرکز کند.
گام بعدی شما
- صورتحسابهای فعلی API خود را بررسی کنید تا ببینید چه مقدار از هزینه شما مربوط به کارمزدهای مسیریابی است و چه مقدار توکن واقعی.
- اگر حجم درخواستهای شما بالاست، مدلهای Open-weight را در OpenModels تست کنید تا کاهش هزینه را بسنجید.
- بررسی کنید که آیا OpenModels میتواند کاتالوگ مدلهایش را به اندازه رقبا گسترش دهد تا تنوع ارائه شده توسط تجمیعکنندههای بزرگ را پوشش دهد یا خیر.
این تنها آغاز ماجراست؛ اثر موجگونهی این Decentralize شدنِ استنتاج بر بازار سختافزاری را در گزارش بعدی بررسی خواهیم کرد.




گفتگو