اگر امروز بودجهی DevOps خود را مدیریت میکنید، اولویت شما دیگر کاهش نویز هشدارها نیست، بلکه خودکارسازی واقعی فرآیند بررسی است. تصور کنید به جای اینکه صرفاً بفهمید چیزی خراب شده، عاملی داشته باشید که پیش از باز کردن لپتاپ توسط انسان، دلیل خرابی را پیدا کرده باشد.
به نقل از Traversal، این رویکرد جدید در امریکن اکسپرس (American Express) منجر به کاهش ۳۲ درصدی میانگین زمان رفع خرابی (MTTR) و رسیدن به دقت ۸۲ درصدی در تحلیل ریشهای خطا (RCA) شده است. در این مدل، ما با عامل (Agent) — شبیه به یک تکنسین خبره که نه تنها مشکل را میبیند، بلکه خودش ابزارها را برمیدارد و شروع به تعمیر میکند — سروکار داریم.
همانطور که در تحلیلهای پیشین ما دربارهی تکامل مدلهای استدلالی اشاره کردیم، تفاوت این روش با AIOps سنتی در ماهیت عملیاتی آن است. سیستمهای قدیمی فقط رویدادها را خوشهبندی میکردند، اما بررسی عاملمحور از مدلهای زبانی بزرگ (LLM) استفاده میکند تا در لحظه دستورات kubectl را اجرا کرده و از APIهای ابری شواهد جدید جمع کند.

طبق گزارشهای صنعتی، این پیشرفت اکنون از طریق «نردبان قابلیت بررسی AI» (AICL) رصد میشود که ۶ سطح دارد؛ از سطح L0 (دستی) تا L5 (ترمیم خودکار در حلقه بسته). در این بازار، بازیگران دیگری نیز فعال هستند:
- Resolve.ai: که در فوریه ۲۰۲۶ به ارزش یک میلیارد دلار رسید.
- HolmesGPT: پروژهای تحت حمایت CNCF که در اکتبر ۲۰۲۵ وارد Sandbox شد.
- K8sGPT: ابزاری متمرکز بر اکوسیستم کوبرنتیز.
- Aurora: گزینهای با لایسنس Apache-2.0 که از AWS، Azure، GCP و کوبرنتیز در یک استقرار واحد پشتیبانی میکند.
این تغییر، نقش مهندس قابلیت اطمینان سایت (SRE) را از یک بازجو به یک بازبین تبدیل میکند. شما دیگر دنبال باگ نمیگردید، بلکه زنجیره تفکر (Chain-of-Thought) — مثل وقتی شاگرد ریاضی پای تخته بلند بلند فکر میکند تا به جواب برسد — را بازبینی میکنید. با این حال، ریسکهای جدیدی مثل پرتشدگی پرامپت (Prompt Drift) و هزینههای بالای استنتاج (Inference) برای بررسیهای طولانیمدت ظاهر شدهاند.
گام بعدی شما
- یک پایلوت کمریسک را با اجرای عامل در حالت «فقط خواندنی» (Read-only) به مدت چهار هفته روی یک کلاستر اجرا کنید.
- تحلیلهای ریشهای عامل را با یافتههای انسانی مقایسه کنید و تنها پس از تایید، دسترسیهای ترمیمی را فعال کنید.
- برای کاهش هزینهها، محدودیتهای سختگیرانهای برای تعداد توکنهای مصرفی در هر جلسه بررسی تعریف کنید.
اما هزینه استنتاج این عاملها در مقیاس بزرگ چالش بعدی است — به بررسی ما دربارهی بهینهسازی هزینههای GPU مراجعه کنید.




گفتگو