تصور کنید عامل هوشمند شما پیش از آنکه حتی اولین کلمه را تایپ کنید، نیمی از حافظهاش را از دست داده باشد. اگر هنوز از تنظیمات پیشفرض MCP استفاده میکنید، باید بدانید که استدلال مدل شما در حال خفه شدن است.
به نقل از آستین ونس (Austin Vance)، مدیرعامل Focused، رفتار پیشفرض فعلی در پروتکل بافت مدل (Model Context Protocol - MCP) — یعنی پر کردن پنجره بافت با تعریف تمام ابزارها در شروع جلسه — اجرای عاملهای عملیاتی را تقریباً غیرممکن میکند. این «مالیات بارگذاری مشتاقانه» (Eager-Loading Tax) باعث میشود عاملها مجبور شوند تمام کتابخانههای ابزار را دانلود کنند، حتی اگر هیچ ارتباطی با وظیفه فعلی نداشته باشند. یک توسعهدهنده گزارش داده که پیش از پرسیدن اولین سؤال، ۸۱٬۹۸۶ توکن مصرف شده است؛ وقتی یکسوم بافت را تعاریف ابزارها میبلعند، توانایی عامل (Agent) در حفظ تاریخچه گفتگو و استدلال در مسائل پیچیده به شدت کاهش مییابد.

طبق گزارش کلودفلر (Cloudflare) در رویداد Agents Week در ۱۲ آوریل ۲۰۲۶، این شکست در مقیاسپذیری با معرفی «حالت کد» (Code Mode) برطرف شد. در این معماری، تعاریف تکتک ابزارها با دو ابزار کلان جایگزین شدهاند: portal_codemode_search و portal_codemode_execute. این چرخش راهبردی مصرف توکن را برای چهار سرور داخلی از ۹٬۴۰۰ به ۶۰۰ توکن رساند که کاهشی ۹۴ درصدی است. در مورد APIهای خود کلودفلر، این کاهش به ۹۹.۹ درصد رسید و از سرریز کامل بافت جلوگیری کرد.
همانطور که در تحلیل قبلی ما دربارهی بهینهسازی استنتاج (Inference) در مدلهای زبانی اشاره کردیم، مدیریت بهینه منابع، کلید عبور از محیط آزمایشگاه به تولید است. اکنون صنعت به سمت الگوهای «بارگذاری تنبل» (Lazy-loading) حرکت میکند:
- مسیریابی بر اساس قصد (Intent Routing): استفاده از یک مسیریاب برای بارگذاری تنها سرورهای مرتبط با یک وظیفه خاص.
- الگوی مهارتها (Skills Pattern): کدگذاری دانش وظیفه در «فایلهای مهارت» سبک (۲۰۰ تا ۱٬۵۰۰ توکن) به جای شمای کامل.
- درگاههای بهینهشده: درگاه MCP شرکت آرکید (Arcade) بیش از ۷٬۵۰۰ ابزار را به توصیفاتی تبدیل میکند که برای مدل زبانی بزرگ (LLM) بهینه شدهاند.

فراتر از عملکرد، این معماری یک خلأ امنیتی به نام «MCP سایه» (Shadow MCP) ایجاد کرده است؛ جایی که توسعهدهندگان سرورهای غیرمجاز را مستقر میکنند که کنترلهای امنیتی سازمانی و ردپای حسابرسی را دور میزنند. پاسخ کلودفلر به این بحران، مدل حاکمیت monorepo با تأیید متمرکز و کنترلهای پیشفرض «رد درخواست» برای دسترسیهای نوشتاری است.
راه نجات از افت کیفیت عاملها، پنجره بافت بزرگتر نیست، بلکه معماری مسیریابی هوشمندتر است. با ورود عاملها به محیط تولید، تمرکز از «تعداد ابزارهایی که یک عامل میتواند دسترسی داشته باشد» به «بهینگی کشف ابزارها» تغییر خواهد کرد.
اما این بهینهسازی تنها بخشی از پازل است؛ تأثیر این تغییرات بر هزینه عملیاتی مدلهای بازمتن را در گزارش بعدی بررسی خواهیم کرد.
گام بعدی شما
- میزان توکنهای مصرفشده در ابتدای جلسات MCP خود را مانیتور کنید تا «مالیات بارگذاری» را شناسایی کنید.
- به جای ارسال تمام Schemaها، از یک لایه مسیریابی (Router) برای بارگذاری پویا استفاده کنید.
- سیاستهای دسترسی در سرورهای MCP خود را بررسی کنید تا از ایجاد Shadow MCP در سازمان جلوگیری شود.




گفتگو