تصور کنید مدیر مالی شرکتی هستید که هزینه اشتراک ماهانه کاربرانش ثابت بود، اما ناگهان با صورتحسابی مواجه میشوید که دهها برابر بیشتر از بودجهتان است. یک کاربر حرفهای که ماهی ۲۰۰ دلار هزینه میکرد، اکنون میتواند برای شرکت هزینهای معادل دهها هزار دلار در ماه تحمیل کند، بهویژه زمانی که مدلهای پیشرو (Frontier Models) در حال اجرا باشند. این جهش هزینهای به این دلیل است که «توکن» جایگزین «کاربری ثابت» به عنوان واحد اصلی هزینه شده است.
به نقل از جی. آر استورمنت (J.R. Storment)، مدیر اجرایی بنیاد FinOps، توکنها اکنون به «واحد اتمی هوش مصنوعی» تبدیل شدهاند؛ پلی میان ظرفیت محدود واحد پردازش گرافیکی (GPU) و فاکتورهای قابل پرداخت برای سازمانها. او استدلال میکند که توکنها در اقتصاد مدرن نقشهای بیشتری نسبت به تقریباً هر کالای دیگری در تاریخ ایفا میکنند و تأثیر آنها را با نفت در قرن بیستم مقایسه میکند. توکنها همزمان به عنوان واحد خروجی برای سختافزارها و مراکز داده، مکانیزم قیمتگذاری برای آزمایشگاههای AI و واحد اصلی ارزشی عمل میکنند که شرکتها سعی در تجاریسازی و کسب درآمد از آن دارند.
برای درک این هزینهها، باید ابتدا واحد محاسبه را شناخت. استورمنت توکن AI را به عنوان کوچکترین واحدی تعریف میکند که یک کلمه یا عبارت میتواند طی پردازش توسط یک مدل زبانی بزرگ (LLM) به آن شکسته شود. این فرآیند که «توکنسازی» (Tokenization) نام دارد، پیش از آنکه مدل بتواند روی متن کار کند، رخ میدهد. در زبان انگلیسی، قانون کلی این است که هر توکن تقریباً معادل چهار نویسه (Character) یا حدود سه-چهارم یک کلمه است؛ بنابراین، ۱۰۰ توکن تقریباً برابر با ۷۵ کلمه است.
این انتزاع به غولهایی مثل OpenAI، Anthropic و Google اجازه میدهد صورتحسابها را ساده کنند. آنها بهجای محاسبه مستقیم انواع خاص GPU، میزان استفاده از حافظه و مصرف برق، فقط یک واحد را ارائه میدهند: «توکن در هر میلیون». اینها معمولاً به صورت «کارت نرخ» (Rate Cards) منتشر میشوند که قیمتهای جداگانهای برای توکنهای ورودی (هر آنچه به مدل فرستاده میشود) و توکنهای خروجی (هر آنچه مدل تولید میکند) دارند.
با این حال، این سادگی فریبنده است. تیم FinOps در شرکت SAP اشاره کرده است که توکنها پیچیدگیهای عظیمی را زیر لایه پیشبینیپذیری پنهان میکنند؛ پیچیدگیهایی که از انتخاب مدل خاص و کوانتایزیشن (Quantization) — یعنی کاهش دقت اعداد برای اشغال فضای کمتر — تا شدت استفاده از حافظه موقت (Caching) یا بهکارگیری عاملهای خودگردان (Autonomous Agents) را شامل میشود. این پیچیدگیها دقیقاً همان مواردی است که تیمهای FinOps اکنون مأمور به رمزگشایی و تحلیل آنها شدهاند. این موضوع نشان میدهد که تکیه صرف بر حجم توکنها میتواند گمراهکننده باشد، موضوعی که در تحلیل ما پیرامون تضاد میان حجم توکن و معماری سیستم به تفصیل بررسی شده است.
همانطور که در تحلیل قبلی ما دربارهی مدلهای استدلالی و هزینههای استنتاج اشاره کردیم، نوسان قیمتها اکنون به یک مسئله سیستمیک تبدیل شده است. این تحول زمانی رخ داد که سازمانها از آزمایشهای ارزانقیمت به سمت استقرار در مقیاس تولید (Production-scale) رفتند.
استورمنت سه مرحله مجزا را توصیف میکند: دوران «روزهای قدیم» پیش از ChatGPT، دوران «روزهای خوب قدیم» که چتباتها میتوانستند کدهای برنامهنویسی قابلقبولی بنویسند، و دنیای پس از نوامبر ۲۰۲۵ که مدلهای جدید، هوش مصنوعی را از سطح «نسبتاً خوب» به «واقعاً قدرتمند» ارتقا دادند. در آن «روزهای خوب»، اشتراکهای ماهانه به عنوان «کالاهای ترغیبکننده» (Loss-leaders) عمل میکردند و در واقع مصرف گسترده را سوبسید میکردند. شرکتها حتی «جدول ردهبندی توکنها» را دنبال میکردند تا ببینند چه کسی بیشترین استفاده را دارد. برای مثال، مؤسسه SemiAnalysis تخمین زد که یک طرح ۲۰۰ دلاری Anthropic زمانی معادل ۸,۰۰۰ دلار توکن Claude ارائه میداد و طرح مشابه OpenAI حدود ۱۴,۰۰۰ دلار توکن Codex میداد. اما این سوبسیدهای سخاوتمندانه پس از نوامبر ۲۰۲۵ 완전히 ناپدید شدند.
با توجه به پوشش قبلی ما درباره اینکه چرا محیطهای اجرای عاملهای AI (Agent Runtimes) باید در مواجهه با قیمتگذاری نامعلوم مدلها به صورت «بسته» (Fail Closed) عمل کنند، این نوسانات اکنون ساختاری شده است. بین ژوئن و نوامبر سال گذشته، رشد جهانی مصرف توکنها روی یک «مسیر خطی زیبا» بود. اما سپس الگوهای عاملمحور (Agentic) — شامل حلقههای تکرار، تلاشهای مجدد (Retries) و اصلاحات خودکار — وارد صحنه شدند و مصرف را منفجر کردند. پنجرههای زمینه (Context Window) — که ظرفیت حافظه کوتاهمدت مدل برای هر درخواست است — از هزاران کلمه به میلیونها کلمه رسیدند. این بدان معناست که یک وظیفهی پیچیده میتواند بودجهی یک ماه را در چند دقیقه بسوزاند. به همین دلیل، دیو تردول، نایبرئیس ارشد آمازون، تأکید کرد که شرکتها باید از بهکاربرفتون هوش مصنوعی «صرفاً برای بهکاربردن آن» دست بردارند.

مدیریت این بحران باعث شد بنیاد لینوکس مفهوم «توکنومیکس» (Tokenomics) را معرفی کند؛ رشتهای برای تبدیل انرژی و سرمایه به هوشمندی. استورمنت آن را به عنوان چرخه کامل عمر توکن به عنوان یک کالای اقتصادی تعریف میکند و آن را به سه دسته تقسیم میکند:
- تولید (Production): تبدیل انرژی و سرمایه به توکن. این فرآیند در مراکز داده ابری، مراکز هممکانی (Colocation)، دستگاههای لبه (Edge Devices) یا همانطور که ایلان ماسک متصور شده، «مراکز داده در فضا» رخ میدهد.
- مصرف (Consumption): مدیریت تخصیص، پیشبینی و بهینهسازی. این بخش شامل مسیریابی مدلها (Model Routing)، انتخابهای کوانتایزیشن، محدود کردن عاملها و استراتژیهای کش (Cache) است.
- ارزش (Value): تعیین نحوهی درآمدزایی از این توکنها. این شامل تعدیل قیمتگذاری SaaS بر اساس هزینههای توکن و تحلیل تأثیرات نیروی کار بر شرکت است.
با وجود روند کلی کاهش قیمت واحد توکن از سال ۲۰۲۳، اکنون به کف قیمت رسیدهایم. استورمنت اشاره میکند که قیمت توکنها از نوامبر ۲۰۲۵ به دلیل محدودیتهای شدید سختافزاری و انرژی ثابت مانده است. او به backlogهای طولانی، دورههای تعهد بلندمدت و کمبودهای مداوم به عنوان محرکهای اصلی اشاره میکند.
این بحران سختافزاری عمیق است. مدیرعامل Intel صراحتاً اعلام کرده است که تا سال ۲۰۲۸ انتظار ندارد تسکینی واقعی در تأمین GPU و قطعات مرتبط با آن ایجاد شود. فردریک پول، نایبرئیس SAP نیز با تأیید این موضوع هشدار داد که قیمت سختافزارها در حال افزایش است و مدلهای پیشرو جدید گرانتر میشوند.
این وضعیت منجر به ایجاد «پارادوکس جِونز» (Jevons Paradox) شده است: هرچه هزینه هر توکن واحد کاهش یابد، کل هزینه افزایش مییابد، زیرا افزایش کارایی ابزارها، کاربر را به استفادههای مکررتر و پیچیدهتر تشویق میکند. پول در کنفرانس FinOps X ۲۰۲۶ تأیید کرد که در مقیاس SAP، هزینهی کل در برخی ماهها دو برابر شد، حتی در حالی که قیمت هر توکن کاهش یافته بود.
این پارادوکس انتظار میرود شتاب بگیرد. گولدمن ساکس پیشبینی میکند مصرف جهانی توکنها از ۶ کوادریلیون فعلی به ۱۲۰ کوادریلیون در حدود ۳.۵ سال آینده میرسد. به دلیل رشد سریع حجم، برای اینکه هزینهها ثابت بماند، قیمت توکنها باید ۲۴ برابر سریعتر از حجم مصرف کاهش یابد؛ سناریویی که با توجه به گلوگاههای زنجیره تأمین، بسیار بعید به نظر میرسد.
شرکت SAP متوجه شد که ابزارهای ابری سنتی در برابر تفاوتهای ظریف مدلهای زبانی «کور» هستند. ابزارهای آنها میتوانستند مجموع هزینه پرداختی به یک ارائهدهنده را نشان دهند، اما نمیتوانستند بگویند کدام مدل خاص باعث ایجاد این هزینه شده است. میدا نظیفی، دانشمند داده در SAP، این وضعیت را به بهینهسازی یک عملیات استخراج طلا تشبیه کرد که در آن اپراتور فقط وزن کلی سنگ معدن را میبیند، نه مقدار طلای خالص درون آن را.
برای حل این مشکل، نظیفی مجبور شد دادهها را بهصورت دستی از جداول مختلف استخراج و ادغام کند تا اولین تصویر شفاف از مصرف ایجاد شود. زمانی که این دادهها به دست مدیر زیرساخت جهانی و مدیر ارشد فناوری (CTO) رسید، درخواستها از «من را در جریان بگذار» به یک «الزام منظم و اجباری» تغییر یافت. پول اشاره کرد که وقتی یک CTO عددی را میخواهد، این یک دستور است، نه یک پرسش.
این مسیر منجر به ایجاد یک چارچوب رسمی FinOps داخلی برای AI شد که بر سه ستون استوار است:
- شفافیت هزینهها (Spend Visibility): ردیابی دقیق اینکه چه چیزی، چگونه و در کجا مصرف میشود؛ در مدلهای مختلف (شامل ChatGPT، Anthropic، Gemini و مدلهای متنباز)، پلتفرمها، واحدهای تجاری و مناطق جغرافیایی مختلف.
- اقتصاد (Economics): اندازهگیری کارایی از طریق معیارهای سطح توکن. این شامل نسبتهای ورودی به خروجی، نسبت توکنهای کششده و «انحراف توکن به هزینه» (Token to spend drift) برای تشخیص اینکه آیا هزینهها به دلیل افزایش حجم بالا رفتهاند یا به دلیل انتقال به مدلهای گرانتر.
- ارزش (Value): اتصال هزینه به نتایج تجاری با استفاده از «هزینه به ازای هر مورد استفاده» (Cost per use case) و «هزینه استنتاج بر اساس درآمد» برای تعیین اینکه آیا ویژگیهای AI از نظر اقتصادی توجیهپذیر هستند و آیا حاشیه سود محصول پایدار است یا خیر.
این تغییرات اقتصادی، مدلهای کسبوکار SaaS را مجبور به بازنویسی میکند. GitHub Copilot مایکروسافت یک مثال بارز است که به سمت شارژهای صریح مبتنی بر مصرف حرکت میکند، زیرا سوبسیدهای ضمنی برای توکنهای نامحدود دیگر نبودند. این روند تغییر مدلهای پرداخت از اشتراک ثابت به توکنمحور در حال تبدیل شدن به استاندارد جدید در ابزارهای توسعه است. این امر باعث اصطکاک با توسعهدهندگانی شد که مدل «هر چقدر میخواهی بخور» (All-you-can-eat) را ترجیح میدادند.
فروشندگان اکنون از چندین لایه انتزاع برای پنهان کردن هزینه توکن از کاربر نهایی استفاده میکنند:
- اعتبارات و مصرف مبهم: کاربران اعتبار میخرند (شبیه انداختن سکه در دستگاه) که در پشت صحنه به توکن تبدیل میشود. استورمنت به سرویسی اشاره کرد که در آن هر بار که یک ویدیو اجرا میشد، اعتبارها «به سرعت» تمام میشدند.
- مدل ترکیبی اشتراک + مصرف: یک هزینه پایه ماهانه قابل پیشبینی، ترکیب شده با هزینههای اضافی بر اساس توکن در حاشیه مصرف.
- عبور مستقیم (Direct Pass-through): محصولاتی که نزدیک به زیرساخت هستند و یک کنتور توکن را از طریق داشبوردها و گاردریلها نشان میدهند.
علاوه بر این، آزمایشگاهها سیاستهای «ساکت» یا پنهانی را برای کنترل منابع خود اجرا میکنند. استورمنت به موردی اشاره کرد که در آن Anthropic بهصورت مخفیانه کاربران را به مدلهای ضعیفتر منتقل میکرد اگر متوجه میشد کاربر سعی دارد از یک مدل پیشرو مثل Fable برای ساخت یک LLM دیگر استفاده کند. اگرچه Anthropic بعداً این تصمیم را پس گرفت، اما این موضوع نشان میدهد که «همه توکنها یکسان نیستند». قیمت یک توکن بسته به ارائهدهنده و نوع استفاده، میتواند از ۲ سنت تا ۳۵ سنت برای هر میلیون توکن متغیر باشد.
پیچیدگی در سطح مدل میتواند منجر به هزینههای غیرمنتظره شود. سایمون ویلیسون، یکی از خالقان چارچوب Django، گزارش داد که ترکیب Claude Fable 5 و Claude Code یک بار برای یافتن یک خطای ساده در نمایش CSS، یک سرور وب راه انداخت و چندین مرورگر را باز کرد. در حالی که آن وظیفه خاص ۱۲ دلار هزینه داشت، مسائل پیچیدهتر میتوانند به طور بالقوه هزاران دلار هزینه کنند بدون اینکه کاربر متوجه شود.
این قیمتگذاریها در حال ایجاد یک شکاف اجتماعی و سازمانی است. در داخل شرکتها، برخی تیمها «شایسته» دسترسی به مدلهای پیشرو شناخته میشوند، در حالی که بقیه به نسخههای ارزانتر و کمتوانتر هدایت میشوند.
با این حال، برخی مدیران نسبت به وضع سقفهای سختگیرانه هشدار میدهند. یکی از مدیران یک شرکت Fortune 100 پیشنهاد کرد که سازمانها باید «دسته پرت» یا Outlierها را — افرادی که مقدار عظیمی توکن مصرف میکنند — شناسایی کرده و با آنها گفتگو کنند، به جای اینکه دسترسیشان را قطع کنند. این کاربران اغلب همانهایی هستند که نوآورانهترین کاربردها را کشف میکنند. در دنیایی که استارتآپهای تحت حمایت Y Combinator میلیونها دلار توکن رایگان از آزمایشگاهها میگیرند تا شرکتهای قدیمی را کنار بزنند، متوقف کردن آزمایشات داخلی میتواند یک تهدید وجودی برای سازمانها باشد.
برای نیروی کار، این وضعیت یک شکاف رقابتی شدید ایجاد میکند. استورمنت استدلال میکند که در حالی که AI ممکن است جایگزین همه شغلها نشود، اما متخصصی که توان مالی و مهارت استفاده از بهینهترین ابزارها را دارد، جایگزین متخصصی میشود که این توانایی را ندارد. این وضعیت بازتابی از اضطراب فارغالتحصیلان جدید در یک بازار کار سخت است، جایی که سخنرانیهای جشن فارغالتحصیلی با محوریت AI این حس را ایجاد میکند که فناوری مستقیماً به دنبال جایگزینی نقشهای آنهاست.
با نزدیک شدن به پیشبینی ۱۲۰ کوادریلیون توکن در ۳.۵ سال آینده (طبق تخمین گولدمن ساکس)، فشار بر حاشیه سود شرکتها افزایش خواهد یافت. سوال برای رهبران دیگر این نیست که «AI چه کاری انجام میدهد»، بلکه همانطور که فردریک پول میگوید: «آیا هر توکن، هزینهاش را میسازد؟»
برای پیشرو بودن در این هزینههای متغیر، شرکتها باید توسعه بنیاد توکنومیکس (Tokenomics Foundation) و مشخصات FinOps Focus را زیر نظر بگیرند. این ابتکارات با هدف ارائه روشی مستقل از فروشنده برای نرمالسازی تلهمتری در سطح توکن ایجاد شدهاند. برنامه جدید «تولیدکننده Focus گواهینامه FinOps» اکنون با هدف تایید این موضوع است که خطوط لولهی صورتحساب ارائهدهندگان با این قوانین استاندارد مطابقت داشته باشند.
گام بعدی شما
- بررسی استراتژیهای کاشینگ (Caching) برای کاهش توکنهای ورودی تکراری.
- پیادهسازی سیستمهای مانیتورینگ برای شناسایی «مصرفکنندگان پرت» در سازمان.
- ارزیابی مدلهای کوچکتر (SLM) برای وظایفی که نیاز به مدلهای پیشرو ندارند.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو