اگر بودجههای هوش مصنوعی خود را بر اساس تعداد توکنها مدیریت میکنید، در واقع دارید یک «کف هزینهای» نامرئی را نادیده میگیرید. باید بدانید که در مقیاس صنعتی، هزینه استنتاج دیگر تابع میزان مصرف نیست، بلکه تابع «حضور» مدل در حافظه است.
سرمایهگذاری در آموزش مدلها یک رویداد محدود بود، اما استنتاج (Inference) اکنون به یک مسئله اقامتی دائمی تبدیل شده است. همانطور که در تحلیلهای پیشین ما دربارهی مقیاسپذیری زیرساختهای پردازشی اشاره کردیم، مدلهای زبانی بزرگ دیگر صرفاً یک ابزار نرمافزاری نیستند، بلکه به بخشی از زیرساخت سختافزاری تبدیل شدهاند که نمیتوان آنها را به سادگی خاموش کرد.

به نقل از تحلیلهای Rack2Cloud در مه ۲۰۲۶، مدلهای ابری سنتی در برابر بارهای کاری هوش مصنوعی شکست میخورند. دلیل اصلی این اتفاق، تأخیر در شروع سرد (Cold-start latency) است که باعث میشود مدلها برای رعایت اهداف سطح خدمات (SLO)، مجبور باشند همیشه «گرم» بمانند. این یعنی ساعت هزینهها هرگز متوقف نمیشود و روشهای سنتی بهینهسازی ابری (Rightsizing) در اینجا بیاثر هستند. در همین راستا، تلاش برای بهینهسازی بهرهوری سختافزار در مقیاس وسیع ادامه دارد؛ برای نمونه، رویکرد Hugging Face در استفاده از دستهبندیهای ناهمزمان توانست بهرهوری GPUها را در استنتاج مدلها به سطح خیرهکنندهای برساند.

بر اساس مستندات این تحلیل، «وضعیت پایدار استنتاج» (Inference Steady State) حداقل اثر زیرساختی مورد نیاز برای حفظ تعهدات SLA است. این اقامت دائمی توسط چهار عامل مستقل هدایت میشود:
- نیاز به ظرفیت گرم برای جلوگیری از جهش تأخیر.
- تقاضایی که با پذیرش محصول، به صورت پلهای افزایش مییابد.
- تکثیر مدلها؛ جایی که نسخههای قدیمی برای انطباق یا بازگشت (Fallback) حفظ میشوند.
- استقرارهای کاناری (Canary deployments) که اثر اقامتی را در زمان انتشار نسخههای جدید دو برابر میکنند.

این ساختار منجر به پدیدهای به نام «وارونگی اقتدار هزینه» (Cost Authority Inversion) میشود. در این وضعیت، لایههای محاسباتی، زیرساخت سرویسدهنده و چرخه حیات مدل توسط تیمهای مختلف مدیریت میشوند. نتیجه این است که کسانی که هزینه را درک میکنند، کنترلی بر زیرساخت ندارند و کسانی که کنترل دارند، هدفی برای بهینهسازی هزینه نمیبینند.

در مدل اقامتی، اهرم بهینهسازی از «کارایی» به «اقتدار» تغییر میکند. هدف دیگر کاهش حجم درخواستها نیست، بلکه تصمیمگیری در این باره است که چه کسی اجازه دارد زیرساخت را اشغال کند و با چه شرایطی. بدون یک تیم متمرکز برای مدیریت پلتفرم استنتاج، رشد هزینههای اقامتی سریعتر از بهرهوری مهندسی پیش خواهد رفت.
گام بعدی شما
- بازنگری در حاکمیت پورتفولیوی مدلها و حذف نسخههای زائد.
- تعریف معیارهای صریح برای ورود و خروج مدلها از محیط تولید (Production).
- ایجاد یک تیم متمرکز برای مدیریت پلتفرم استنتاج که همزمان مسئول پایداری و هزینه باشد.
اما این فشار هزینهای تنها بخشی از داستان است؛ برای درک اینکه سختافزارهای نسل جدید چگونه این کف هزینهای را جابهجا میکنند، تحلیل ما دربارهی تراشههای Blackwell را بخوانید.
گفتگو