عاملهای بیدرنگ (Real-time agents) دیگر یک ویژگی آزمایشی نیستند، بلکه از ژوئیه ۲۰۲۶ به یک الزام زیرساختی بنیادین تبدیل شدهاند. LiteLLM برای پاسخ به این تغییر رویکرد، مسیرهای بیدرنگ و OCR خود را به زبان Rust منتقل کرد تا گلوگاه حیاتی سربار گیتوی (Gateway overhead) را برطرف کند.
بیشتر عاملهای هوش مصنوعی در حال حاضر در حالت «بافری» عمل میکنند؛ به این معنا که منتظر میمانند تا یک مدل تولید کامل پاسخ را به پایان برساند و سپس خروجی را پردازش میکنند. این سازوکار باعث ایجاد تجربهای کند میشود و اغلب ۵ تا ۲۰ ثانیه سربار به هر وظیفه اضافه میکند. چنین تأخیری برای نیازهای تعاملی بالای عاملهای کدنویسی مدرن غیرقابلقبول است. برای مثال، در محیط Claude Code که بر روی runtime مدلهای مدیریتشدهی Claude اجرا میشود، زمانی یک تصمیم گرفته میشود و کاربر باید ۵۰۰ میلیثانیه تا ۲ ثانیه برای دریافت پاسخ منتظر بماند. اگر این اتفاق ۱۰ بار در هر وظیفه رخ دهد، تأخیر بهسرعت انباشت شده و تجربه کاربری را تخریب میکند.
همانطور که در تحلیل قبلی ما دربارهی دلیل همگرایی مدلهای زبانی بزرگ به پاسخهای مشابه و خستهکننده اشاره کردیم، صنعت اکنون از بحث «کیفیت پاسخ» عبور کرده و به «فیزیک تحویل پاسخ» رسیده است. در عاملهای بیدرنگ، مدل توکنها را استریم میکند و عامل آنها را در لحظه رسیدن دریافت میکند. این رویکرد اجازه میدهد تا مداخلات و فراخوانی ابزارها بهصورت فوری رخ دهد و تأخیر رفتوبرگشت از سطح «هر تصمیم» به سطح «هر توکن» کاهش یابد.
مالیات تأخیری پایتون
به نقل از یک تحلیل فنی در وبسایت dev.to، مشکل اصلی این است که عاملهای بیدرنگ بهروزرسانیها را در بازههای تقریباً ۱۰۰ میلیثانیهای به کلاینتها میفرستند (بهطور معمول یک توکن در هر ۵۰ میلیثانیه). در یک گیتوی مبتنی بر پایتون، سربار ۱ تا ۲ میلیثانیهای برای هر توکن، در مقیاسی که با صدها عامل همزمان سروکار دارد، مقدار زیادی از CPU را مصرف میکند. وقتی شما ۱۰ رویداد در ثانیه برای هر عامل داشته باشید، این وضعیت پایدار میشود و گیتوی — و نه مدل — تبدیل به گلوگاه اصلی میشود.
برای حل این مشکل در پایتون، تیمها مجبور به انتخابهای هزینهبر هستند: یا پرداخت هزینه بیشتر برای پادهای کانتینری بزرگتر (مقیاسدهی عمودی) یا اجرای تعداد پادهای بیشتر (مقیاسدهی افقی). LiteLLM گزینه سومی را انتخاب کرد: انتقال مسیرهای حساس و پرتردد (Hot path) به یک محیط اجرای سریعتر.
جهش عملکردی Rust
مهاجرت LiteLLM به Rust محاسبات زیرساختی را بهطور قابلتوجهی تغییر داد:
- کاهش تأخیر: سربار Rust تقریباً ۰.۰۵ میلیثانیه برای هر درخواست است، در حالی که این مقدار در مسیر پایتون ۷.۵ میلیثانیه بود.
- توان عملیاتی (Throughput): گیتوی Rust تحت فشار، قادر است از ۶،۷۸۲ درخواست در ثانیه پشتیبانی کند.
- بهرهوری حافظه: حداکثر مصرف حافظه در مقدار ۳۱.۷ مگابایت محدود شده است.
این سطح از کارایی، تفاوت بین اجرای عاملهای بیدرنگ روی یک زیرساخت متواضع در برابر نیاز به پادهای ابری سنگین و گرانقیمت است.
استقرار مرحلهبندی شده در محیط عملیاتی
این انتقال که در نشست Townhall ژوئن ۲۰۲۶ اعلام شد، یک بازنویسی کامل و یکباره نیست، بلکه یک عرضه مرحلهبندی شده است که در محیط عملیاتی اعتبارسنجی میشود. تیم توسعه این مهاجرت زیرساختی را مانند یک ریلیز محصول مدیریت میکند تا برابری عملکرد (Parity) تضمین شود.
- فاز اول: ابتدا مسیرهای OCR (نویسهخوانی نوری) منتقل شدند (ابتدا با Mistral و سپس تمامی ارائهدهندگان OCR).
- فاز دوم: مهاجرت مسیرهای
/messages. - فاز نهایی: انتقال مسیرهای
/chat/completionsتا تاریخ ۱ سپتامبر ۲۰۲۶.
فراتر از گیتوی: صفحه کنترل
یک گیتوی سریع لازم است اما برای عاملهای بیدرنگ کافی نیست، زیرا این عاملها ذاتاً دارای «وضعیت» (Stateful) هستند. LiteLLM Agent Platform بهعنوان یک صفحه کنترل (Control plane) مبتنی بر Rust عمل میکند تا پیچیدگیهای مدیریت استریم وضعیت را بر عهده بگیرد.
عاملهای بیدرنگ باید وظایفی را مدیریت کنند که عاملهای بافری کاملاً نادیده میگیرند. این پلتفرم باید بتواند استریم را در صورتی که کاربر روی دکمه «توقف» کلیک کند متوقف کند، یک درخواست را با پارامترهای متفاوت دوباره امتحان (Retry) کند، یا یک گفتگو را فورک (Fork) کند تا چندین جایگزین مختلف را به کاربر ارائه دهد. از آنجا که عاملهای کدنویسی طولانیمدت هستند، ابزارهای زیادی را فراخوانی میکنند و هزینهبر هستند، کاربرد اصلی این زیرساخت را تشکیل میدهند.
حاکمیت و مشاهدهپذیری در زمان واقعی
صفحه کنترل نیازهای خاص عاملهای با توان عملیاتی بالا را به شرح زیر پوشش میدهد:
- اجرای فوری: تصمیمگیری در مورد اینکه آیا یک فراخوانی ابزار که در میان استریم ظاهر شده (پیش از آنکه استدلال کامل مدل تمام شود) باید فوراً اجرا شود یا منتظر تایید بماند.
- لاگگذاری بومی: تغییر روش ثبت وقایع از لاگ کردن پاسخهای کامل به ثبت بومی جریانهای توکن، بهطوری که این قابلیت به عنوان یک فکر بدیع در ابتدا طراحی شده باشد، نه یک الحاقیه بعدی.
- مدیریت نشست: متمرکز کردن زمینه گفتگو، تاریخچه تصمیمات و توکنهای ناقص در میان محیطهای مختلف اجرایی مانند Claude Managed Agents، Cursor یا Bedrock AgentCore.
تأثیر اقتصادی استریم
تغییر به معماری بیدرنگ، «محاسبات توکن» را برای اپراتورها تغییر میدهد. در حالت بافری، شما هزینه کل پاسخ را پیش از هر اقدامی میپردازید. اما در حالت بیدرنگ، عاملها میتوانند پاسخهای ناقص را رصد کرده و در صورت تشخیص پاسخ صحیح، زودتر از موعد تصمیم بگیرند یا استریم را قطع کنند («Bail early»).
برای مثال، اگر عاملی در حال تصمیمگیری بین سه ابزار مختلف است و نخستین توکن تولید شده میگوید «از GitHub استفاده کن»، دیگر نیازی نیست منتظر تولید توضیح کامل مدل بماند. این سازوکار میتواند ۲۰٪ تا ۴۰٪ از مصرف توکنها را در بارهای کاری تصمیممحور ذخیره کند. این رویکرد در واقع پاسخی به چالشهای بهرهوری است که در تحلیل ما پیرامون راهکارهای «صف اقدامات» برای جلوگیری از هدررفت توکنها در عاملهای هوش مصنوعی به تفصیل بررسی شده است.
این چرخش معماری سیگنالی است که قابلیتهای بیدرنگ اکنون به یک معیار برای بلوغ زیرساختی تبدیل شدهاند. سیستمهایی که نمیتوانند سربار گیتوی زیر یک میلیثانیه یا مشاهدهپذیری بومی استریم را ارائه دهند، بیش از آنکه پلتفرمهای آماده تولید باشند، به عنوان پروتوتایپ دیده میشوند.
برای تیمهایی که بر روی چارچوبهای عاملمحور مانند LangGraph یا CrewAI کار میکنند، الگو اکنون روشن است: یک گیتوی سریع برای تحویل توکن در کنار یک صفحه کنترل قدرتمند برای حاکمیت وضعیت. این جداسازی موضوع قفل شدن به یک فروشنده (Vendor lock-in) نیست، بلکه یک ضرورت معماری است. عاملهای بیدرنگ بهطور همزمان به توان عملیاتی بالا و حاکمیت دقیق نیاز دارند و سیستمهای تکلایه معمولاً در یکی از این دو بعد یا هر دو شکست میخورند.
برای ارزیابی پشته (Stack) فعلی خود، این سوال را بپرسید که آیا گیتوی شما میتواند بدون از دست رفتن دادهها، پاسخهای ناقص را در هنگام فورک شدن استریم کپچر کند یا خیر. شما میتوانید تکامل این پشتیبانیهای بیدرنگ را در Changelog لایتالایالام دنبال کنید یا جزئیات مهاجرت به Rust را از طریق بهروزرسانی Townhall ژوئن آنها بررسی نمایید.
گام بعدی شما
- اگر از گیتویهای پایتونی برای استریم استفاده میکنید، نرخ تأخیر (Latency) را در مقیاس ۱۰۰ کاربر همزمان اندازه بگیرید تا گلوگاه CPU را شناسایی کنید.
- بررسی کنید آیا زیرساخت فعلی شما قادر به کپچر کردن پاسخهای ناقص (Partial response) در هنگام فورک شدن استریم بدون از دست رفتن داده است یا خیر.
- تغییرات مربوط به مسیرهای
/chat/completionsرا در Changelog لایتالایالام تا سپتامبر ۲۰۲۶ دنبال کنید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو