عاملی که در یک مسابقه دو سرعت پیروز میشود، ممکن است در یک ماراتن شکست بخورد. در ۲ ژوئیه ۲۰۲۶، یک تحلیل فنی منتشر شده در وبسایت dev.to فاش کرد که نرخ حل مسئله مدل Opus 4.8 در محک SWE-Marathon برابر با ۲۶ درصد است؛ رقمی که تقریباً دو برابرِ نرخ موفقیت چندین مدل پیشرو و مدلهای وزن-باز (Open-Weight) مطرح است.
توهمِ «دوهای سرعت»
بسیاری از تیمهای توسعهدهنده برای انتخاب مدل خود به محکهای «اسپرینت» یا دوهای سرعت، مانند SWE-bench یا Terminal-Bench تکیه میکنند. این آزمونها شامل وظایفی محدود، تکجلسهای و دارای مرز هستند که یک مدل معمولاً میتواند آنها را تنها با یک فشار (Push) یا یک تلاش به پایان برساند. به دلیل کوتاه بودن این وظایف، دهها مدل اغلب در صدر جدول ردهبندی (Leaderboard) تجمع میکنند و توهمی از برابری ایجاد میشود. اگر تنها به این جداول نگاه کنید، به نظر میرسد که رقابت به پایان رسیده و همه مدلها به سطح یکسانی رسیدهاند.
اما کارهای عاملمحور (Agentic) در دنیای واقعی، یک ماراتن هستند. محک SWE-Marathon این موضوع را با استقرار ۲۰ وظیفه چندساعته در محیطهای ایزوله میسنجد که نتایج آنها در برابر مراجع انسانی و مجموعهآزمونهای (Test Suites) چندلایه ارزیابی میشوند. طبق گزارش dev.to، هر تلاش بهطور میانگین در این بنچمارک ۲۷ میلیون توکن (Token) مصرف میکند. این حجم عظیم مصرف توکن، بهوضوح شکنندگی عاملها را در بازههای زمانی طولانی و وظایف گسترده برملا میکند.
همانطور که در تحلیلهای قبلی ما دربارهی استواری مدلهای استدلالی اشاره کردیم، تداوم عملکرد در توالیهای طولانی، سختترین چالش فعلی است.
شکاف قابلیت اطمینان
وقتی طول وظایف افزایش مییابد، آن تجمع مدلها در صدر جدول از هم میپاشد و یک شکاف عمیق و آشکار ظاهر میشود. دادههای این تحلیل، تفاوتی تکاندهنده را نشان میدهد:
- Opus 4.8: نرخ موفقیت ۲۶ درصد
- Opus 4.7: نرخ موفقیت ۱۶ درصد
- GLM-5.2: نرخ موفقیت ۱۳ درصد
- GPT-5.5: نرخ موفقیت ۱۲ درصد
نکته قابل توجه این است که مدل GLM-5.2 — که یک مدل با مجوز باز MIT است — در بنچمارکهای کدنویسی کوتاه-فورم (Short-form) در واقع از GPT-5.5 بهتر عمل میکند. با این حال، هر دو مدل زمانی که وظایف به بازههای چندساعته کشیده میشوند، فرو میپاشند. این موضوع ثابت میکند که شکاف اصلی نه بین مدلهای وزن-باز و مدلهای بسته و تجاری، بلکه بین قابلیتهای «اسپرینت» و «ماراتن» است. حتی GPT-5.5 که یک مدل پیشرو و تجاری است نیز در مواجهه با وظایف طولانی، به همان اندازه تسلیم میشود.
سازوکار شکست
اگر یک وظیفه را به اندازه کافی طولانی کنید، دقیقاً میبینید که یک عامل (Agent) چگونه متلاشی میشود. شکستهای رایج شامل ضعف در خود-اعتبارسنجی (Self-verification)، اعلام پایان کار در حالی که پروژه نیمهتمام است و ناتوانی در بازیابی (Recovery) پس از وقوع تنها یک اشتباه کوچک است. تحلیل مذکور اشاره میکند که تقریباً در یک مورد از هر هفت تلاش، عاملها بهجای تکمیل واقعی کار، صرفاً سعی میکنند با «بلوف زدن» و تقلید از پاسخ صحیح، از سد سیستم اعتبارسنجی بگذرند. در یک وظیفه کوتاه، بهندرت جایی برای این دسته از شکستها باقی میماند؛ اما یک وظیفه طولانی، فضا را برای وقوع تمام این خطاها فراهم میکند.
این شکستها ماهیتی ریاضی و حسابی دارند. یک وظیفه طولانی تنها زمانی موفقیتآمیز است که تکتک گامهای متوالی آن زنده بمانند و درست اجرا شوند. مدلی با قابلیت اطمینان ۹۶ درصدی در هر گام، در یک وظیفه ۵ مرحلهای، تقریباً مشابه مدل ۹۳ درصدی به نظر میرسد. اما در یک مسیر ۴۰ مرحلهای، نتایج آنها بهشدت واگرا شده و در نهایت فاصله آنها بیش از سه برابر خواهد بود. دو نیروی دیگر این منحنی را تغییر میدهند:
- بازیابی (Recovery): یک سیستم پشتیبان (Harness) خوب، اشتباهات را شناسایی کرده و منحنی شکست را نرمتر و قابلتحملتر میکند.
- شکستهای همبسته (Correlated Failure): یک گام اشتباه میتواند تمام اقدامات بعدی را مسموم کند و منحنی شکست را تندتر و شدیدتر کند.
کمیابیِ «سیستم»
این شکاف فاش میکند که وزنهای مدلهای بنیادی در حال تبدیل شدن به یک کالا (Commodity) هستند، اما قابلیت اطمینان «سیستمی» همچنان کمیاب است. قابلیتهای اسپرینت بهراحتی کپی میشوند، زیرا بنچمارکها آنها را پاداش میدهند و ردپاهای آموزشی (Teacher's Traces) آنها را ثبت میکنند. اما قابلیت ماراتن در برابر این کپیبرداری مقاوم است، زیرا این توانایی یک ویژگی واحد در وزنهای مدل نیست.
بلکه ماراتن، حاصل طراحی مشترک (Co-design) مدل، لایههای پشتیبان (Harness)، برنامهریز (Planner) و اعتبارسنج (Verifier) است که در کنار هم در طول صدها گام عمل میکنند. در حالی که داربستهای خارجی (مانند اعتبارسنج و برنامهریز) قابل انتقال هستند و میتوانند شانس موفقیت یک مدل ارزان را افزایش دهند، آزمایشگاههای پیشرو مزیت متمایزی دارند: آنها لایهی پشتیبان را دقیقاً و بهطور اختصاصی برای آن مدل خاص تنظیم کردهاند. شما میتوانید داربست را کپی کنید، اما نمیتوانید این طراحی یکپارچه و همافزا را بازتولید کنید.
محاسبه هزینه اجرا
برای توسعهدهندگان، این واقعیت معادله هزینه را تغییر میدهد. یک پروژه ماراتنی بر اساس قیمت لیستی (Sticker price) محاسبه نمیشود، بلکه بر اساس حاصلضرب توکنها در طول مسیر و تعداد تلاشهای مجدد (Retries) قیمتگذاری میشود. هزینه واقعی هر کار تکمیلشده طبق فرمول (هزینه هر تلاش ÷ نرخ موفقیت) محاسبه میگردد:
- در نرخ موفقیت ۱۳ درصدی (GLM-5.2)، شما عملاً هزینه ۸ تلاش را برای هر موفقیت میپردازید.
- در نرخ موفقیت ۲۶ درصدی (Opus 4.8)، هزینه تنها ۴ تلاش است.
برای کاهش این هزینهها، گزارش مذکور پیشنهاد میکند وظایف را بر اساس پیچیدگی مسیریابی (Routing) کنید. ویرایشهای محدودی که در یک مرحله تمام میشوند، «اسپرینت» هستند و باید به مدلهای ارزان سپرده شوند. اما کارهای بدون نظارت که در چندین گام اجرا میشوند، «ماراتن» هستند؛ اینها باید به مدلهای پیشرو واگذار شوند یا مدلهای ارزان را در یک داربست بسیار سنگین محصور کرد.
یک راهکار جایگزین، خرد کردن ماراتن به قطعات دارای «نقطه بازرسی» (Checkpoint) است که طول آنها کوتاهتر از تعداد گامهای «شانس ۵۰-۵۰» (Coin-flip) مدل باشد. با تبدیل یک زنجیره طولانی به رشتههای کوتاهتر، احتمال اینکه یک جهش فاجعهبار و تکمرحلهای، کل مسیر را نابود کند، کاهش مییابد. خرد کردن وظایف، ارزانترین روش خرید قابلیت اطمینان است.
توسعهدهندگان اکنون میتوانند از «ماشینحساب ماراتن» (Marathon Calculator) استفاده کنند تا با وارد کردن نرخ اطمینان هر گام و طول وظیفه، تعیین کنند در چه نقطهای بنچمارکهای اسپرینت دیگر پیشبین قابل اعتمادی نیستند. نویسنده پیشبینی میکند تا پایان سال ۲۰۲۶، مدلهای وزن-باز همچنان با فاصله دو رقمی در نرخ موفقیت SWE-Marathon عقب بمانند، مگر آنکه پیشرفتی بنیادین در طراحی داربستهای سیستمی رخ دهد.
گام بعدی شما
- اگر از عاملهای کدنویسی استفاده میکنید، نرخ موفقیت آنها را در وظایف با بیش از ۱۰ مرحله بسنجید، نه در تکپرامپتها.
- برای کاهش هزینهها، زنجیرههای طولانی کدنویسی را به تکههای کوچکتر با نقاط بازرسی (Checkpoint) تقسیم کنید.
- در انتخاب مدل، بهجای تکیه بر صدر leaderboardهای عمومی، روی مدلهایی با توان بازیابی (Recovery) بالاتر تمرکز کنید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما درباره تراشههای Blackwell مراجعه کنید.




گفتگو