چگونه مهندسی هارنس، نرخ موفقیت عامل‌های کدنویس را به ۷۷٪ رساند؟

اگر هنوز گردش‌کار عامل‌های خود را دستی تنظیم می‌کنید، در حال جنگ با یک ارتش از خطاها و ناپایداری‌ها هستید. باید بدانید که بزرگ‌ترین هزینه پنهان در سیستم‌های عامل‌محور (Agentic)، نه خودِ مدل، بلکه «هارنس» یا همان محیط اجرای آن است.

در ۳۰ آوریل ۲۰۲۶، یک مقاله پژوهشی چارچوبی به نام مهندسی هارنس عامل‌محور (Agentic Harness Engineering یا AHE) را معرفی کرد که معماری عامل را به عنوان یک قرارداد قابل تایید می‌بیند. به نقل از گزارش منتشر شده در gentic.news، این رویکرد اجازه می‌دهد هارنس‌ها بدون دچار شدن به «رانش» (Drift) که در تکامل‌های آزمون-و-خطای ساده دیده می‌شود، به‌طور سیستماتیک تکامل یابند.

این چارچوب از سه لایه مجزا تشکیل شده است:

اجزای بازگشت‌پذیر: هر بخش از هارنس به صورت یک فایل ذخیره می‌شود تا امکان بازگشت به نسخه‌های قبلی وجود داشته باشد.
تجربه فشرده: میلیون‌ها توکنِ مسیر اجرا به شواهد عملی و قابل اجرا تبدیل می‌شوند.
تصمیمات ابطال‌پذیر: هر تغییر با نتایج واقعی تسک‌ها سنجیده می‌شود تا یک حلقه بازخورد سخت‌گیرانه ایجاد شود.

مهندسی زیرساخت عامل‌محور، عملکرد عامل‌های کدنویسی را در Terminal-Bench 2، ۷٪ افزایش می‌دهد.

نتایج در بنچمارک Terminal-Bench 2 تکان‌دهنده بود: نرخ موفقیت (pass@1) تنها در ۱۰ تکرار از ۶۹.۷٪ به ۷۷.۰٪ رسید. طبق گزارش این پژوهش، این عملکرد حتی از Codex-CLI که توسط انسان طراحی شده (۷۱.۹٪) و همچنین مدل‌های خود-تکامل‌یافته‌ای مانند ACE و TF-GRPO پیشی گرفته است.

همان‌طور که در تحلیل قبلی ما درباره‌ی معماری‌های خود-تکامل‌یافته اشاره کردیم، حذف دخالت دستی انسان در طراحی جریان‌های کاری، کلید رسیدن به پایداری در مقیاس است.

نمودار افزایش ۷٪ عملکرد عامل‌های کدنویسی با مهندسی هارنس عاملی در Terminal-Bench ۲

علاوه بر دقت، این چارچوب کاربرد عملی بالایی دارد. در بنچمارک SWE-bench-verified، مصرف توکن‌ها ۱۲٪ کاهش یافت. همچنین، این سیستم توانست بین مدل‌های مختلف منتقل شود و بهبودهایی بین ۵.۱ تا ۱۰.۱ واحد در خانواده‌های مختلف مدل‌ها ایجاد کند. این یعنی سیستم به جای بیش‌برازش (Overfitting) روی یک مدل خاص، ساختارهای بنیادی تسک را یاد می‌گیرد.

این تغییر رویکرد، بازتابی از فلسفه چارچوب Flue است که یک عامل را مجموع مدل و هارنس آن تعریف می‌کند. با خودکارسازی تکامل هارنس، توسعه‌دهندگان از تنظیمات دستی به سمت یک معماری برنامه‌ریزی‌پذیر و مشاهده‌پذیر حرکت می‌کنند.

اما سوال حیاتی این است که آیا این موفقیت در بنچمارک‌ها به پایداری در محیط‌های واقعی تولید تبدیل می‌شود یا خیر؟ این تنها آغاز ماجراست؛ اثر موج‌گونه‌ی این تصمیم بر اکوسیستم متن‌باز را در گزارش بعدی بررسی خواهیم کرد.

گام بعدی شما

بررسی مستندات AHE برای جایگزینی تنظیمات دستی با لایه‌های ابطال‌پذیر.
تست مدل‌های فعلی خود در بنچمارک‌های سخت‌گیرانه‌تر برای شناسایی نقاط شکست هارنس.
مطالعه در مورد چارچوب Flue برای درک بهتر رابطه مدل و محیط اجرا.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

این چارچوب از سه لایه مجزا تشکیل شده است:

اجزای بازگشت‌پذیر: هر بخش از هارنس به صورت یک فایل ذخیره می‌شود تا امکان بازگشت به نسخه‌های قبلی وجود داشته باشد.
تجربه فشرده: میلیون‌ها توکنِ مسیر اجرا به شواهد عملی و قابل اجرا تبدیل می‌شوند.
تصمیمات ابطال‌پذیر: هر تغییر با نتایج واقعی تسک‌ها سنجیده می‌شود تا یک حلقه بازخورد سخت‌گیرانه ایجاد شود.

مهندسی زیرساخت عامل‌محور، عملکرد عامل‌های کدنویسی را در Terminal-Bench 2، ۷٪ افزایش می‌دهد.

نمودار افزایش ۷٪ عملکرد عامل‌های کدنویسی با مهندسی هارنس عاملی در Terminal-Bench ۲

گام بعدی شما

بررسی مستندات AHE برای جایگزینی تنظیمات دستی با لایه‌های ابطال‌پذیر.
تست مدل‌های فعلی خود در بنچمارک‌های سخت‌گیرانه‌تر برای شناسایی نقاط شکست هارنس.
مطالعه در مورد چارچوب Flue برای درک بهتر رابطه مدل و محیط اجرا.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه مهندسی هارنس، نرخ موفقیت عامل‌های کدنویس را به ۷۷٪ رساند؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه مهندسی هارنس، نرخ موفقیت عامل‌های کدنویس را به ۷۷٪ رساند؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه مهندسی هارنس، نرخ موفقیت عامل‌های کدنویس را به ۷۷٪ رساند؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چگونه مهندسی هارنس، نرخ موفقیت عامل‌های کدنویس را به ۷۷٪ رساند؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران