کدام مدل زبانی بازسازی ساختارهای پیچیده کد را دقیق‌تر انجام می‌دهد؟

اگر امروز در حال توسعه‌ی یک سیستم عامل‌محور هستید، احتمالاً با کابوس کدهای «اسپاگتی» رو به‌رو شده‌اید. اینجاست که تفاوت بین یک مدل که صرفاً کد می‌نویسد و مدلی که معماری را می‌فهمد، مشخص می‌شود.

یک آزمایش جامع روی ۱۱ مدل پیشرو نشان داد که Fable-5 در بازسازی ساختارهای پیچیده کد، استانداردی جدید تعریف کرده است. هدف این آزمایش بررسی توانایی مدل زبانی بزرگ (LLM) — مثل کتابخانه‌داری که میلیارد‌ها صفحه را خوانده و حالا با همان لحن جواب می‌دهد — در باز کردن گره‌های کور کد (God Node) بود؛ همان توابع غول‌آسایی که هنگام افزودن سریع قابلیت‌ها به یک عامل، ایجاد می‌شوند و عیب‌یابی سیستم را غیرممکن می‌کنند.

این تلاش برای پاک‌سازی معماری‌های عامل‌محور، بخشی از یک روند گسترده‌تر به سمت گردش‌کارهای ساختاریافته و قابل‌مشاهده است. همان‌طور که در تحلیل قبلی ما درباره‌ی خودکارسازی پاسخ‌های هوش مصنوعی در n8n اشاره کردیم، شفافیت در جریان داده (Control Flow) اکنون اولویت اول توسعه‌دهندگان است.

کالبدشکافی «گره خدا» در LangGraph

طبق گزارش‌های فنی، چالش اصلی این آزمایش یک گره مرکزی به نام plan در یک عامل LangGraph بود. این گره با ۳۵۰ خط منطق پیچیده، مانند یک گلوگاه عمل می‌کرد و وظایف متناقضی را هم‌زمان مدیریت می‌کرد:

مدیریت تکرارها: بررسی وضعیت لغو عملیات یا رسیدن به سقف تکرارهای مجاز (max_iters).
منطق بوت‌استرپ: اجرای بررسی‌های پیش‌نیاز مانند _needs_region_question برای هدایت کاربر.
آماده‌سازی داده‌ها: تولید تجزیه‌های پویا و ادغام فیلدهای آماده برای به‌روزرسانی طرحواره.
مسیریابی تصمیمات: مدیریت انتقال بین مراحل بدون دخالت مستقیم مدل.
برنامه‌ریزی LLM: فراخوانی مدل و دریافت تصمیم نهایی (PlannerDecision).
پس‌پردازش: نرمال‌سازی تصمیمات و هدایت فیلدهای مشتق‌شده.
درگاه‌های ایمنی: بررسی محدودیت‌های ماشین‌حساب و شناسایی جست‌وجوهای تکراری برای تغییر مسیر به مرحله تأمل یا پایان.
دفترداری: بازنشانی پرچم‌های گذرا و ثبت وقایع پیشرفت در لاگ‌ها.

برای درک خطر، باید به مکانیزم‌های پنهان این گره نگاه کرد. این گره بازنویسی‌های قطعی را پس از فراخوانی مدل انجام می‌داد، خطاهای پایان زودهنگام را اصلاح می‌کرد و محدودیت‌های هر فیلد را ردیابی می‌نمود. در واقع، تمام هوشمندیِ سیستم در یک نقطه متمرکز شده بود که هر تغییر کوچک در آن، کل سیستم را به ریسک فرو می‌برد.

پروتکل آزمایش و رویارویی مدل‌ها

در این رقابت، ۱۱ مدل از جمله GPT-5.5، DeepSeek-4-pro، Gemini-3.1-pro و Fable-5 در محیط OpenCode و با افزونه Oh My Openagent شرکت کردند. این رویکرد مقایسه‌ای یادآور بررسی‌های پیشین ما در مورد برتری کلود در مدیریت مخازن کد پیچیده است که تفاوت‌های بنیادین مدل‌ها در درک ساختارهای حجیم کد را تحلیل می‌کرد. پروتکل آزمایش در سه مرحله پیش رفت:

۱. تولید پیشنهاد: هر مدل باید راهکاری برای انتقال منطق پنهان گره به سطح گراف ارائه می‌داد.
۲. ارزیابی متقاطع: مدل‌ها در نقش داور قرار گرفتند و پیشنهادات رقبا را رتبه‌بندی کرده و نقاط ضعف آن‌ها را تحلیل کردند.
۳. متاآنالیز: شناسایی «بهترین تحلیلگر» بر اساس دقت رتبه‌بندی و عمق معنایی.

تحلیل معماری‌ها: از دقت Fable تا توهمات Qwen

پیشنهادات ارائه شده از نظر جزئیات و اعتبار فنی تفاوت فاحشی داشتند.

پیشنهادات سطح بالا:

Fable-5: یک تفکیک متوازن ۵ مرحله‌ای (tick, prepare, select, decide, guard) پیشنهاد داد. این مدل با معرفی فیلد decision_origin توانست تفاوت تصمیمات قطعی و تصمیمات مدل را تفکیک کند.
GPT-5.4: مشابه Fable-5 عمل کرد اما سوالات منطقه و ارز را به یک درگاه مجزای bootstrap_gate منتقل کرد.
GPT-5.5: در تفکیک تهاجمی‌تر بود و منطق retry_gate را کاملاً جدا کرد تا قوانین مدیریت تصمیمات شفاف شوند.
Opus-4.7: بیشترین میزان تجزیه را داشت و هر سیاست پنهان را به یک درگاه یا اصلاح‌گر مستقل تبدیل کرد؛ رویکردی که برای توسعه اکتشافی عالی است اما پیچیدگی را بالا می‌برد.

پیشنهادات معیوب:

Qwen-3.6-plus: سعی کرد منطق را در توابع لبه (Edge Functions) قرار دهد. در LangGraph، لبه‌ها فقط باید نام گره بعدی را برگردانند؛ بازنویسی وضعیت در لبه باعث شکست جریان منطقی و عدم ذخیره‌سازی (Persistence) می‌شود.
Qwen-3.7-max: یک سیستم «goto» دست‌ساز ساخت که مسیریابی را دوباره درون گره‌ها پنهان کرد. همچنین باگی بحرانی داشت که باعث می‌شد بررسی سقف تکرارها (max_iters) نادیده گرفته شود.
Gemini-3.1-pro: طرحی بسیار کلی و مینیمال ارائه داد و بخش بزرگی از منطق متناقض را در یک گره واحد جمع کرد.
GLM-5.1: عملاً هیچ تفکیکی انجام نداد و فقط نام گره را تغییر داد.
Kimi-2.6: ساختاری معقول داشت اما یک شاخه خیالی (calc_adjust) را توهم زد که به هیچ کجا ختم نمی‌شد.

نبرد تحلیلگران: حقیقت در برابر توهم

وقتی مدل‌ها به نقش داور منتقل شدند، شکاف عمیقی در «یکپارچگی واقعیت» دیده شد. Fable-5 به‌عنوان استاندارد طلایی حسابرسی ظاهر شد. این مدل تنها گزارشی بود که مجموعه‌ای از واقعیت‌های قابل‌تأیید را با ارجاع دقیق به شماره فایل و خط ارائه داد. همچنین تنها یکی از دو مدلی بود که باگ تکرار در Qwen-3.7-max و باگ اجرای دوگانه در Kimi-2.6 را شناسایی کرد.

این توهمات در مدل‌های ضعیف‌تر، ریشه‌ی عمیقی در نحوه پردازش توکن‌ها دارد؛ موضوعی که در تحلیل ما پیرامون مکانیسم توجه و دلیل تولید پاسخ‌های توهمی به تفصیل بررسی شده است. در مقابل، DeepSeek-4-pro اگرچه داده‌های متراکمی تولید کرد، اما پیشنهاد معیوب Kimi-2.6 را برنده اعلام کرد. Opus-4.7 نیز با وجود تحلیل عمیق، به یک فایل تست خیالی ارجاع داد و یک باگ واقعی را به‌عنوان «یک نکته مثبت» معرفی کرد. GPT-5.5 تمیزترین متن را داشت و تنها مدلی بود که محدودیت‌های سیستمی (مانند هزینه نوشتن در دیتابیس Postgres در هر مرز گره) را درک کرده بود.

نتایج کمّی و اجماع مدل‌ها

برای حذف سوگیری، داده‌ها از سه منظر ریاضی تحلیل شدند:

۱. میانگین امتیازات: رتبه‌بندی نهایی به ترتیب: Fable-5 (۱۰.۷)، GPT-5.4 (۹.۲)، GPT-5.5 (۸.۰) و در انتها Qwen-3.6-plus (۲.۶).
۲. تحلیل تز-محور: مدل‌ها بر سر سه نقطه توافق داشتند: گره plan یک گره خدا است، فراخوانی LLM باید یک مرحله نازک باشد و گره‌های عملیاتی باید به بالای حلقه بازگردند.
۳. فاصله مدواید (Medoid): محاسبات نشان داد که GPT-5.5 دقیق‌ترین پیش‌بینی‌کننده از اجماع کلی مدل‌ها بود.

گام بعدی شما

برای بازسازی کدهای حساس، هرگز به یک مدل تکی اعتماد نکنید. از استراتژی «اجماع تحلیلگران» استفاده کنید.
مدل‌های «معمار» (مانند Fable-5) را برای حسابرسی کدهای تولید شده توسط مدل‌های «مولد» به کار بگیرید.
در پرامپت‌های حسابرسی، مدل را مجبور کنید ارجاعات خود را دقیقاً با ذکر شماره خط و نام فایل ارائه دهد.

اما داستان سخت‌افزاری پشتیبانی از این مدل‌های استدلالی حتی پیچیده‌تر است — به تحلیل ما درباره‌ی بهینه‌سازی استنتاج در تراشه‌های نسل جدید مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.