اگر امروز برنامهای مینویسید که با مدلهای هوش مصنوعی تعامل دارد، باید بدانید سادگیِ ظاهریِ یک پرامپت، توهمی است که توسط لایههای پیچیده زیرساختی حفظ شده است. هر بار که یک فراخوانی به SDK شرکتهایی مانند Anthropic یا OpenAI ارسال میکنید، عملیات گستردهای در سیستمهای توزیعشده رخ میدهد که باید در کمتر از یک ثانیه به پایان برسد.
به نقل از تحلیل فنی مفصلی که در ۵ جولای ۲۰۲۶ در وبسایت dev.to منتشر شد، آنچه ما به عنوان یک «جعبه سیاه» میبینیم، در واقع هماهنگی دقیق ۱۵ لایه است که برای رسیدن به پاسخ نهایی با یکدیگر همکاری میکنند. بسیاری از توسعهدهندگان این سربار زیرساختی را نادیده میگیرند و API را صرفاً یک نقطه اتصال ساده میبینند، اما همینجا است که گلوگاههای نامرئی ایجاد میشوند. همانطور که در تحلیلهای قبلی ما در این پلتفرم دربارهی نحوه حل معماهای منطقی توسط مدلهای چندگانه (Multi-LLM) اشاره کردیم، هر لایهٔ اضافی در این گردشکارهای پیچیده، «مالیات زیرساختی» توصیفشده در اینجا را در هر گام و هر پرش (Hop) چند برابر میکند.

لایههای شبکه و اتصال
درخواست شما از محیط محلی آغاز میشود. ابتدا SDK پیامهای شما را به فرمت JSON سریالایز (Serialize) کرده و هدرهای لازم، از جمله کلید API و نوع محتوا (Content-type) را به آن پیوست میکند. در این مرحله، SDK باید بین پروتکلهای HTTP/1.1 و HTTP/2 تصمیمگیری کند و همزمان منطق تلاش مجدد (Retry) و عقبنشینی (Backoff) را برای مدیریت خطاهای احتمالی تنظیم نماید. طبق مستندات فنی، اگر برای هر درخواست یک نمونه (Instance) جدید از کلاینت بسازید، قابلیت اتصالهای اشتراکی (Connection Pooling) را از دست میدهید و هر بار باید هزینهٔ زمانی کامل برای دستودست (Handshake) TCP و TLS بپردازید.
سپس نوبت به فاز DNS میرسد. یک درخواست برای یافتن آدرسی مانند api.anthropic.com باید به یک Resolver ارسال شود تا IP مقصد (مثلاً 203.0.113.42) را پیدا کند. یک جستجوی سرد (Cold Lookup) بین ۲۰ تا ۱۲۰ میلیثانیه زمان میبرد، در حالی که جستجوهای حافظه-پایه (Cached) تقریباً رایگان هستند؛ به همین دلیل است که بازاستفاده از اتصال در مقیاس بالا، یک پیروزی استراتژیک و حیاتی برای کاهش تأخیر است.
در نهایت، کانال ارتباطی از طریق TLS قفل میشود. این فرآیند شامل یک دستودست TCP و سپس یک دستودست TLS است تا پیش از ارسال درخواست، رمزنگاری برقرار شود. هرچند در نسخه TLS 1.3 این فرآیند به تقریباً یک رفتوبرگشت (Round trip) کاهش یافته است، اما در شبکههای موبایل با تأخیر بالا، همچنان یک عامل مؤثر در کند شدن پاسخهاست.
درگاه و مسیریابی
قبل از رسیدن به GPU، درخواست از یک Load Balancer عبور میکند تا بررسیهای سلامت (Health checks) انجام شده، مسیریابی جغرافیایی صورت گیرد و اثرات جهشهای ترافیکی جذب شود. این لایه تضمین میکند که از کار افتادن یک سرور واحد باعث شکست کل سیستم نشود. سپس API Gateway مانند یک «پست بازرسی» یا امنیت فرودگاه، سه وظیفه حیاتی را ایفا میکند:
- احراز هویت (Auth): تأیید اینکه آیا کلید API معتبر است و شناسایی حساب کاربری متصل.
- محدودیت نرخ (Rate Limiting): محافظت از زیرساختهای اشتراکی در برابر «همسایههای پرصدا» (Noisy Neighbors) تا یک کلاینت نتواند با درخواستهای انبوه، کیفیت سرویس را برای سایر کاربران تخریب کند.
- اعتبارسنجی (Validation): رد کردن JSONهای ناقص یا پارامترهای غلط پیش از آنکه زمان گرانبهای GPU در مراحل پاییندست تلف شود.
بهطور موازی، سیستمهای ثبت وقایع (Logging) بهصورت غیرهمزمان و بدون مسدود کردن جریان (Non-blocking)، شناسه درخواست (Request ID)، تعداد توکنها و تأخیر هر مرحله را ثبت میکنند. این دادهها برای عیبیابی، شناسایی سوءاستفادهها و در نهایت محاسبه صورتحساب شما استفاده میشوند.
خط لوله یادگیری ماشین
پس از عبور از لایه امنیتی، درخواست وارد خط لوله تخصصی ML میشود:
- توکنسازی (Tokenization): کلمات به اعداد تبدیل میشوند. برای مثال، عبارت "Explain quantum entanglement" به لیستی مانند [16350, 14294, 4776, 385, 1997] تبدیل میشود. چون صورتحسابها بر اساس توکن و نه کاراکتر هستند و «پنجره زمینه ۲۰۰ هزار توکنی» در واقع یک بودجه توکنی است، این مرحله محرک اصلی هزینه است. متون غیرانگلیسی و کدها اغلب توکنهای بیشتری میسوزانند زیرا توکنساز در طول آموزش، الگوهای کمتری از آنها دیده است. در همین راستا، تکنیکهای جدیدی مانند بهینهسازی توکنهای مبتنی بر CPU توانستهاند هزینههای استنتاج را تا ۶۵٪ کاهش دهند.
- مسیریابی مدل (Model Routing): لایهای که بر اساس ظرفیت فعلی و منطقه جغرافیایی، خوشه (Cluster) و مدل خاص را برای پردازش انتخاب میکند.
- زمانبندی GPU (GPU Scheduling): چون GPUها نمیتوانند فوراً روشن شوند، درخواستها بهصورت دستهای (Batch) پردازش میشوند. از روش دستهبندی پیوسته (Continuous Batching) استفاده میشود تا درخواستهای جدید در میان دستههای در حال اجرا جای بگیرند و کارایی حفظ شود. همین اشتراک سختافزاری است که باعث میشود تأخیر (Latency) در هر فراخوانی متفاوت باشد.
- KV Cache: این حافظه، محاسبات توکنهای قبلی را ذخیره میکند تا مدل مجبور نباشد برای تولید هر توکن جدید، کل گفتگو را از ابتدا پردازش کند. در حالی که این مکانیسم سرعت تولید را بالا میبرد، با افزایش طول زمینه (Context)، مقدار زیادی از حافظه GPU را اشغال میکند. همچنین، این لایه امکان «کشینگ پرامپت» را فراهم میکند که در آن یک پیشوند مشترک (مانند پرامپت سیستمی) بازاستفاده شده تا هزینه و تأخیر کاهش یابد.
- استنتاج ترنسفورمر (Transformer Inference): مدل توکن را به یک بردار معنایی (Embedding) تبدیل کرده، آن را از N لایه ترنسفورمر (شامل Self-attention و Feed-forward) عبور میدهد و در نهایت یک توزیع احتمالی روی واژگان ایجاد میکند تا توکن بعدی را نمونهبرداری کند.
استفاده از Server-Sent Events برای ارسال پاسخها بهصورت جریانی (Streaming)، تأخیر ادراکی کاربر را کاهش میدهد، هرچند زمان کل تولید توکنها تغییر نمیکند. پیادهسازی دقیق SSE میتواند تأخیر اولین توکن را به ۲۰۰ میلیثانیه برساند و تجربه کاربری را بهطور چشمگیری بهبود بخشد. توکنها بهصورت خودبازگشتی (Autoregressive) تولید و به محض آماده شدن ارسال میشوند. برای هر پاسخی که طول آن از یک جمله بیشتر باشد، استریمینگ برای جلوگیری از نمایش صفحه خالی ضروری است.
در نهایت، سیستم پرداخت بهطور موازی هر دو توکن ورودی و خروجی را اندازهگیری میکند. بسیاری از ارائهدهندگان برای توکنهای کششده تخفیف میدهند تا پرامپتهای سیستمی طولانی تبدیل به ردیفهای هزینهبر در صورتحساب نشوند. برای مدیریت این هزینهها، بررسی مقایسه بهینهسازیهای عملیاتی بین مدلهایی نظیر DeepSeek و GLM-4 میتواند راهکارهای عملی برای کاهش شدید هزینههای API ارائه دهد.
برای یک توسعهدهنده کاربردی، این بدان معنای است که معماری AI ابتدا یک مسئلهٔ سیستمهای توزیعشده است و سپس یک مسئلهٔ ML. نوسان سرعت پاسخها به معنای «عمیقتر فکر کردن» مدل نیست، بلکه نتیجهٔ اشتراک سختافزار در لایه دستهبندی است.
کاهش کلمات تکراری و اضافی (Boilerplate) در پرامپتهای سیستمی، فقط مرتبسازی کد نیست؛ بلکه مستقیماً صورتحساب شما را کم کرده و حافظه محدود KV Cache را حفظ میکند. همچنین، بالا بردن Temperature مدل را هوشمندتر نمیکند، بلکه صرفاً تصادفی بودن نمونهگیری را در مرحله استنتاج افزایش میدهد.
با رایجتر شدن زنجیرههای عاملمحور (Agentic)، تکرار این ۱۵ گام در هر فراخوانی ابزار (Tool call)، به قاتل اصلی عملکرد تبدیل خواهد شد. باید منتظر بمانیم و ببینیم آیا ارائهدهندگان این لایهها را در محیطهای حالت-اشتراکی (Shared state environments) ادغام میکنند تا عاملها در مقیاس واقعی کاربردی بمانند یا خیر.
گام بعدی شما
- برای کاهش هزینه و تأخیر، پرامپتهای سیستمی خود را بهینه کنید و از قابلیت Prompt Caching ارائهدهندگان استفاده کنید.
- از Connection Pooling در SDKها استفاده کنید تا هزینهٔ زمانی TLS Handshake در هر درخواست حذف شود.
- در محیطهای عملیاتی، تأخیر را در لایههای مختلف (DNS، Gateway و Inference) تفکیک کنید تا گلوگاه واقعی را بیابید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو