اگر امروز در حال توسعهی یک سیستم عاملمحور هستید، احتمالاً با کابوس کدهای «اسپاگتی» رو بهرو شدهاید. اینجاست که تفاوت بین یک مدل که صرفاً کد مینویسد و مدلی که معماری را میفهمد، مشخص میشود.
یک آزمایش جامع روی ۱۱ مدل پیشرو نشان داد که Fable-5 در بازسازی ساختارهای پیچیده کد، استانداردی جدید تعریف کرده است. هدف این آزمایش بررسی توانایی مدل زبانی بزرگ (LLM) — مثل کتابخانهداری که میلیاردها صفحه را خوانده و حالا با همان لحن جواب میدهد — در باز کردن گرههای کور کد (God Node) بود؛ همان توابع غولآسایی که هنگام افزودن سریع قابلیتها به یک عامل، ایجاد میشوند و عیبیابی سیستم را غیرممکن میکنند.
این تلاش برای پاکسازی معماریهای عاملمحور، بخشی از یک روند گستردهتر به سمت گردشکارهای ساختاریافته و قابلمشاهده است. همانطور که در تحلیل قبلی ما دربارهی خودکارسازی پاسخهای هوش مصنوعی در n8n اشاره کردیم، شفافیت در جریان داده (Control Flow) اکنون اولویت اول توسعهدهندگان است.
کالبدشکافی «گره خدا» در LangGraph
طبق گزارشهای فنی، چالش اصلی این آزمایش یک گره مرکزی به نام plan در یک عامل LangGraph بود. این گره با ۳۵۰ خط منطق پیچیده، مانند یک گلوگاه عمل میکرد و وظایف متناقضی را همزمان مدیریت میکرد:
- مدیریت تکرارها: بررسی وضعیت لغو عملیات یا رسیدن به سقف تکرارهای مجاز (
max_iters). - منطق بوتاسترپ: اجرای بررسیهای پیشنیاز مانند
_needs_region_questionبرای هدایت کاربر. - آمادهسازی دادهها: تولید تجزیههای پویا و ادغام فیلدهای آماده برای بهروزرسانی طرحواره.
- مسیریابی تصمیمات: مدیریت انتقال بین مراحل بدون دخالت مستقیم مدل.
- برنامهریزی LLM: فراخوانی مدل و دریافت تصمیم نهایی (
PlannerDecision). - پسپردازش: نرمالسازی تصمیمات و هدایت فیلدهای مشتقشده.
- درگاههای ایمنی: بررسی محدودیتهای ماشینحساب و شناسایی جستوجوهای تکراری برای تغییر مسیر به مرحله تأمل یا پایان.
- دفترداری: بازنشانی پرچمهای گذرا و ثبت وقایع پیشرفت در لاگها.
برای درک خطر، باید به مکانیزمهای پنهان این گره نگاه کرد. این گره بازنویسیهای قطعی را پس از فراخوانی مدل انجام میداد، خطاهای پایان زودهنگام را اصلاح میکرد و محدودیتهای هر فیلد را ردیابی مینمود. در واقع، تمام هوشمندیِ سیستم در یک نقطه متمرکز شده بود که هر تغییر کوچک در آن، کل سیستم را به ریسک فرو میبرد.
پروتکل آزمایش و رویارویی مدلها
در این رقابت، ۱۱ مدل از جمله GPT-5.5، DeepSeek-4-pro، Gemini-3.1-pro و Fable-5 در محیط OpenCode و با افزونه Oh My Openagent شرکت کردند. این رویکرد مقایسهای یادآور بررسیهای پیشین ما در مورد برتری کلود در مدیریت مخازن کد پیچیده است که تفاوتهای بنیادین مدلها در درک ساختارهای حجیم کد را تحلیل میکرد. پروتکل آزمایش در سه مرحله پیش رفت:
۱. تولید پیشنهاد: هر مدل باید راهکاری برای انتقال منطق پنهان گره به سطح گراف ارائه میداد.
۲. ارزیابی متقاطع: مدلها در نقش داور قرار گرفتند و پیشنهادات رقبا را رتبهبندی کرده و نقاط ضعف آنها را تحلیل کردند.
۳. متاآنالیز: شناسایی «بهترین تحلیلگر» بر اساس دقت رتبهبندی و عمق معنایی.
تحلیل معماریها: از دقت Fable تا توهمات Qwen
پیشنهادات ارائه شده از نظر جزئیات و اعتبار فنی تفاوت فاحشی داشتند.
پیشنهادات سطح بالا:
- Fable-5: یک تفکیک متوازن ۵ مرحلهای (
tick,prepare,select,decide,guard) پیشنهاد داد. این مدل با معرفی فیلدdecision_originتوانست تفاوت تصمیمات قطعی و تصمیمات مدل را تفکیک کند. - GPT-5.4: مشابه Fable-5 عمل کرد اما سوالات منطقه و ارز را به یک درگاه مجزای
bootstrap_gateمنتقل کرد. - GPT-5.5: در تفکیک تهاجمیتر بود و منطق
retry_gateرا کاملاً جدا کرد تا قوانین مدیریت تصمیمات شفاف شوند. - Opus-4.7: بیشترین میزان تجزیه را داشت و هر سیاست پنهان را به یک درگاه یا اصلاحگر مستقل تبدیل کرد؛ رویکردی که برای توسعه اکتشافی عالی است اما پیچیدگی را بالا میبرد.
پیشنهادات معیوب:
- Qwen-3.6-plus: سعی کرد منطق را در توابع لبه (Edge Functions) قرار دهد. در LangGraph، لبهها فقط باید نام گره بعدی را برگردانند؛ بازنویسی وضعیت در لبه باعث شکست جریان منطقی و عدم ذخیرهسازی (Persistence) میشود.
- Qwen-3.7-max: یک سیستم «goto» دستساز ساخت که مسیریابی را دوباره درون گرهها پنهان کرد. همچنین باگی بحرانی داشت که باعث میشد بررسی سقف تکرارها (
max_iters) نادیده گرفته شود. - Gemini-3.1-pro: طرحی بسیار کلی و مینیمال ارائه داد و بخش بزرگی از منطق متناقض را در یک گره واحد جمع کرد.
- GLM-5.1: عملاً هیچ تفکیکی انجام نداد و فقط نام گره را تغییر داد.
- Kimi-2.6: ساختاری معقول داشت اما یک شاخه خیالی (
calc_adjust) را توهم زد که به هیچ کجا ختم نمیشد.
نبرد تحلیلگران: حقیقت در برابر توهم
وقتی مدلها به نقش داور منتقل شدند، شکاف عمیقی در «یکپارچگی واقعیت» دیده شد. Fable-5 بهعنوان استاندارد طلایی حسابرسی ظاهر شد. این مدل تنها گزارشی بود که مجموعهای از واقعیتهای قابلتأیید را با ارجاع دقیق به شماره فایل و خط ارائه داد. همچنین تنها یکی از دو مدلی بود که باگ تکرار در Qwen-3.7-max و باگ اجرای دوگانه در Kimi-2.6 را شناسایی کرد.
این توهمات در مدلهای ضعیفتر، ریشهی عمیقی در نحوه پردازش توکنها دارد؛ موضوعی که در تحلیل ما پیرامون مکانیسم توجه و دلیل تولید پاسخهای توهمی به تفصیل بررسی شده است. در مقابل، DeepSeek-4-pro اگرچه دادههای متراکمی تولید کرد، اما پیشنهاد معیوب Kimi-2.6 را برنده اعلام کرد. Opus-4.7 نیز با وجود تحلیل عمیق، به یک فایل تست خیالی ارجاع داد و یک باگ واقعی را بهعنوان «یک نکته مثبت» معرفی کرد. GPT-5.5 تمیزترین متن را داشت و تنها مدلی بود که محدودیتهای سیستمی (مانند هزینه نوشتن در دیتابیس Postgres در هر مرز گره) را درک کرده بود.
نتایج کمّی و اجماع مدلها
برای حذف سوگیری، دادهها از سه منظر ریاضی تحلیل شدند:
۱. میانگین امتیازات: رتبهبندی نهایی به ترتیب: Fable-5 (۱۰.۷)، GPT-5.4 (۹.۲)، GPT-5.5 (۸.۰) و در انتها Qwen-3.6-plus (۲.۶).
۲. تحلیل تز-محور: مدلها بر سر سه نقطه توافق داشتند: گره plan یک گره خدا است، فراخوانی LLM باید یک مرحله نازک باشد و گرههای عملیاتی باید به بالای حلقه بازگردند.
۳. فاصله مدواید (Medoid): محاسبات نشان داد که GPT-5.5 دقیقترین پیشبینیکننده از اجماع کلی مدلها بود.
گام بعدی شما
- برای بازسازی کدهای حساس، هرگز به یک مدل تکی اعتماد نکنید. از استراتژی «اجماع تحلیلگران» استفاده کنید.
- مدلهای «معمار» (مانند Fable-5) را برای حسابرسی کدهای تولید شده توسط مدلهای «مولد» به کار بگیرید.
- در پرامپتهای حسابرسی، مدل را مجبور کنید ارجاعات خود را دقیقاً با ذکر شماره خط و نام فایل ارائه دهد.
اما داستان سختافزاری پشتیبانی از این مدلهای استدلالی حتی پیچیدهتر است — به تحلیل ما دربارهی بهینهسازی استنتاج در تراشههای نسل جدید مراجعه کنید.




گفتگو