۳ گام عملی برای نجات گردش کارهای AI از قطعی‌های طولانی

اگر امروز تمام گردش کارهای شما به یک مدل وابسته است، در واقع هیچ استراتژی بقایی ندارید و فقط خوش‌شانس بوده‌اید. تصور کنید مدل اصلی شما ناگهان قطع شود؛ آیا می‌دانید در ساعت اول این بحران، سیستم شما چه واکنشی نشان می‌دهد یا همه چیز در سکوتی مرگبار متوقف می‌شود؟ اگر نمی‌توانید پاسخ دهید که گردش کار شما در اولین ساعت یک خاموشی کامل چه می‌کند، شما به جای استراتژی، تنها به شانس تکیه کرده‌اید و شانس در نهایت در معرض آزمونی عمومی قرار می‌گیرد.

قطع دسترسی ۱۹ روزه به مدل Fable 5 که در ۱ ژوئیه ۲۰۲۶ به پایان رسید، نقطه ضعفی بحرانی را در نگاه تیم‌های فنی فاش کرد: برخورد با مدل‌های هوش مصنوعی به‌مثابه زیرساخت‌های دائمی. طبق گزارش dev.to، وقتی یک مدل محوری از دسترس خارج می‌شود، سازمان‌هایی که فاقد «وضعیت تاب‌آوری» رسمی هستند، به‌طور کامل فلج می‌شوند یا در سکوت شکست می‌خورند. این وضعیت یادآور نقص‌های معماری در برخی مدل‌های پیشرو است که نشان داد چرا اتکای مطلق به یک مدل واحد می‌تواند خطرناک باشد. همان‌طور که در تحلیل‌های قبلی ما درباره‌ی امنیت مدل‌های بازمتن اشاره کردیم، وابستگی مطلق به یک تامین‌کننده، ریسک عملیاتی را به شدت افزایش می‌دهد.

استفاده از یک مدل زبانی بزرگ (LLM) — مثل کتابخانه‌داری که میلیاردها صفحه را خوانده و حالا با همان لحن کتاب‌ها جواب می‌دهد — به عنوان تنها وابستگی دائمی، دقیقاً شبیه اجرای یک پایگاه‌داده روی یک نسخه تک‌کپی بدون پشتیبان است. در پی قطعی Fable، یک توسعه‌دهنده در dev.to راهنمای عملی (Runbook) را منتشر کرد تا تضمین کند که ناپدید شدن یک مدل، به‌جای تبدیل شدن به یک آتش‌سوزی تجاری، به یک پنجره برای بهره‌برداری (Arbitrage) تبدیل شود. پلتفرم MarketScale اشاره کرد تیم‌هایی که نقشه مسیریابی و ذخایر خروجی داشتند، این قطعی را یک فرصت دیدند، در حالی که بقیه صرفاً غافلگیر شدند.

Cover image for I Wired an AI Fallback Runbook After a 19-Day Outage - Here's All 3 Parts

بخش اول: سیاست مسیریابی خوانا

نخستین رکن، داشتن یک سیاست مسیریابی صریح و خواناست. عبارت «ما از Claude استفاده می‌کنیم» یک سیاست نیست، بلکه یک پیش‌فرض است که هیچ‌کس درباره آن رای نداده است. یک سیاست مسیریابی واقعی، نقشه‌ای نام‌گذاری شده است که تعیین می‌کند هر دسته از وظایف به کدام مدل ارسال شود. این کار باعث می‌شود تصمیم «چه چیزی کجا اجرا شود» از یک عادت در حافظه یک مهندس، به یک تصمیم مکتوب روی کاغذ تبدیل شود.

طبقه‌بندی انبوه (Bulk Classification): این وظایف نیازی به استدلال گران‌قیمت ندارند؛ مسیر اصلی را به سطح «Haiku» و مدل جایگزین (Fallback) را به Gemini Flash اختصاص دهید.
اجراهای طولانی عامل‌ها (Long Agent Runs): این موارد نیازمند استدلال بالایی هستند؛ مسیر اصلی را به سطح «Opus» و جایگزین را به Sonnet 5 اختصاص دهید.
بازبینی کد (Code Review): مسیر اصلی را به Sonnet 5 و جایگزین را به مدل‌های سطح «GPT» اختصاص دهید.

با ثبت این موارد در یک فایل routing.yaml، مسیریاب دقیقاً می‌داند در صورت ناپدید شدن مدل اصلی، کار را به کجا بفرستد. این یعنی هیچ‌کس مجبور نیست ساعت ۲ صبح در اوج یک بحران، بهe improvisation یا بداهه پردازی روی آورد.

بخش دوم: ذخایر برنامه‌ریزی (Plan-Banking)

دومین گام، «بانکداری برنامه‌ها» است. این روش شامل تولید پیش‌دستانه اسکلت‌بندی‌ها (Scaffolds) و خروجی‌های گردش کارهای حیاتی در زمانی است که مدل در دسترس و ارزان است. این کار شبیه کنسرو کردن سبزیجات در تابستان است تا طوفان‌های ماه فوریه منجر به خالی ماندن بشقاب غذا نشود.

سازوکار: از یک شغل زمان‌بندی‌شده شبانه (Nightly Scheduled Job) برای تولید برنامه‌های گردش کارهایی که نباید متوقف شوند، استفاده کنید؛ مواردی مانند جریان‌های پذیرش کاربر (Onboarding flows)، یادداشت‌های انتشار (Release notes) یا دستورالعمل‌های تریاژ (Triage playbooks).
ذخیره‌سازی: این موارد را در فایل‌های JSON ذخیره کنید (مثلاً به صورت bank/${wf}.$(date +%F).json) و یک ذخیره غلتان ۱۴ روزه نگه دارید و بقیه را پاک کنید.
بانکداری گزینشی: در تله ذخیره کردن همه چیز نیفتید. فقط دو یا سه گردش کاری که توقفشان باعث درد واقعی در کسب‌وکار می‌شود را ذخیره کنید؛ اجازه دهید موارد کم‌اهمیت‌تر با صدای بلند شکست بخورند (Fail loudly).

در یک قطعی ۱۹ روزه، این ذخایر تفاوت بین جمله «ما از بانک ذخیره استفاده کردیم» و «تا اطلاع بعدی مسدود هستیم» را رقم می‌زند. در واقع، ایجاد چنین مکانیزم‌های بازیابی با بهره‌گیری از سیستم‌های خودترمیمی می‌تواند بخش بزرگی از شکست‌های احتمالی عامل‌های هوش مصنوعی را جبران کند.

بخش سوم: منبع دوم آزمایش‌شده

در نهایت، این استراتژی نیازمند یک منبع دوم آزمایش‌شده است. مدل جایگزینی که هرگز با پرامپت‌های واقعی تست نشده باشد، صرفاً «یک حدس است که کلاه ایمنی سر دارد». تیم‌هایی که فقط گفتند «یه جوری حلش می‌کنیم»، هفته‌ها زمان از دست دادند، اما کسانی که جایگزین‌های نام‌گذاری‌شده و تست‌شده داشتند، در عرض چند ساعت مسیر را تغییر دادند.

این رویکرد اکنون به‌دلیل گسترش منوی مدل‌ها میسر شده است. مدل Sonnet 5 که در ۳۰ ژوئن با قیمت ۲/۱۰ دلار به‌ازای هر میلیون توکن عرضه شد، اغلب عامل‌محورتر، ارزان‌تر و توانمندتر از مدل‌هایی است که جایگزین آن‌ها می‌شود. همچنین Gemini 3.5 Pro برای ماه جولای در حال آماده‌سازی است. برای حفظ این سطح از آمادگی، نویسنده پیشنهاد می‌کند چک‌لیست هفتگی canary.yaml را اجرا کنید:

زمان‌بندی: هر هفته.
اقدام: اجرای مدل جایگزین روی «پرامپت‌های طلایی» (Golden Prompts).
هشدار: اگر نرخ پذیرش (Pass rate) به زیر ۰.۹۵ رسید، یک اعلان (Notification) ارسال شود.

این روش اجازه می‌دهد تیم‌ها «رانش خاموش» (Silent Drift) را در یک پنجشنبه آرام شناسایی کنند، نه در حین یک قطعی زنده.

بستر ژئوپلیتیک

یک نکته ژئوپلیتیک در این میان وجود دارد: همان دولتی که مجوز صادرات Fable را لغو کرد، هم‌زمان پیشنهاد مالکیت ۵ درصدی در یک شرکت رقیب را دریافت کرد. چون مدل محدودشده بعدی غیرقابل پیش‌بینی است، سیاست مسیریابی که بیش از یک فروشنده (Vendor) را شامل شود، تنها پوشش مؤثر در برابر محدودیت‌های تجاری بین‌المللی است.

از دیدگاه عملیاتی، این اقدامات در روزهای آرام ارزان هستند اما در زمان وحشت، اجرای آن‌ها کاملاً غیرممکن است. قطعی ۱۹ روزه ریسک جدیدی ایجاد نکرد؛ بلکه فقط صورت‌حساب تصمیمی را برای همه فرستاد که با «تصمیم نگرفتن» گرفته بودند.

گام بعدی شما

حیاتی‌ترین گردش کار AI خود را بررسی کنید. شناسایی کنید کدام مدل «اصلی» است.
یک مدل جایگزین مشخص نام ببرید و آن را در مستندات مسیریابی ثبت کنید.
اسکریپتی بنویسید که هر هفته صحت و دقت مدل جایگزین را با پرامپت‌های مرجع تست کند.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

Cover image for I Wired an AI Fallback Runbook After a 19-Day Outage - Here's All 3 Parts