اگر معیار موفقیت پروژهی هوش مصنوعی خود را تعداد توکنهای مصرفشده میدانید، احتمالاً در حال رصد یک متغیر پوچ هستید. باید بدانید که تمرکز بیش از حد بر «هزینه به ازای هر توکن»، تفاوت میان استدلالهای باارزش و آزمایشهای بیثمر را میپوشاند. این چالش در مدلهای درآمدی نیز دیده میشود؛ چنانکه تغییر رویکرد GitHub Copilot به سمت پرداخت توکنمحور نشان میدهد مدلهای اشتراکی ثابت دیگر با واقعیتهای مصرفی سازگار نیستند.
به نقل از تحلیل فنی Unite.ai، این تغییر دیدگاه در حالی رخ میدهد که معیار «تعداد درخواست در ثانیه» (Requests Per Second) دوران وب، در برابر معماریهای مدل زبانی بزرگ (LLM) منسوخ شده است. برای یک معمار سازمانی، تصور اینکه تمام توکنها واحدهای یکسانی هستند، دیدگاهی تحریفشده از بهرهوری ایجاد میکند؛ چرا که یک میلیون توکن برای عملیات خودکار مشتری، درآمدی بهمراتب بیشتر از یک میلیون توکن صرفشده در نمونهسازیهای داخلی تولید میکند. در واقع، بسیاری از توسعهدهندگان اکنون به جای پیچیدگیهای کدنویسی، بر زیرساختهای پرداخت و توزیع API تمرکز کردهاند تا جریان درآمدی خود را بهینهتر نمایند.
همانطور که در تحلیل قبلی ما دربارهی امنیت مدلهای بازمتن اشاره کردیم، بهینهسازیهای حیاتی اکنون در لایههای زیرین مدل رخ میدهند. یکی از این نقاط، ایوی کش (KV Cache) است. این مکانیسم پاسخها و پرامپتهای قبلی را نزدیک به واحد پردازش گرافیکی (GPU) ذخیره میکند تا پاسخ دوم سریعتر از پاسخ اول باشد.
بر اساس بررسی منابع متعدد، با گسترش پنجرههای متنی به میلیونها توکن، گلوگاه اصلی دیگر توانایی مدل نیست، بلکه پهنای باند حافظه و سیستمهای خنککننده هستند. این ناپایداریهای زیرساختی میتواند مستقیماً بر خروجی مدل اثر بگذارد، همانطور که تحلیلهای اخیر دربارهی اثر نمونهبرداری توکن بر نویز زیرساختی در عاملهای AI نشان میدهد. زیرساختها اکنون به مدلی شبیه به خدمات شهری (Utility) تبدیل شدهاند که در آن دسترسی به انرژی، نه نمرات بنچمارک، مقیاسپذیری را تعیین میکند.
استراتژی برنده اکنون به سمت «سیستمهای مدلمحور» حرکت میکند؛ جایی که بارهای کاری بهطور هوشمند بین مدلهای بزرگ و کوچک توزیع میشوند تا تأخیر و بار انرژی بهینه شود. در این میان، لایه ارکستراسیون (Orchestration) که ترافیک را مدیریت و امنیت را تضمین میکند، تمایز اصلی ایجاد میکند.
گام بعدی شما
- بازنگری در متدولوژی حسابرسی AI و جایگزینی شمارندههای ساده با معیارهای کارایی سیستمی.
- تمرکز بر بهینهسازی «لایه میانی» بین مدل و اپلیکیشن برای تضمین پایداری در شرایط فشار حرارتی.
- پیادهسازی استراتژیهای مسیریابی هوشمند برای توزیع توکنها بین مدلهای SLM و LLM.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است؛ برای درک فشار واقعی روی حافظه، تحلیل ما دربارهی تراشههای HBM را بخوانید.

گفتگو