چرا طراحی بازگشتی در DGM باعث جهش ۲.۵ برابری عملکرد در بنچمارک SWE-bench شد؟

باید بدانید که عصر تکیه مطلق به داده‌های انسانی برای ارتقای مدل‌ها در حال پایان است و جای خود را به «طراحی بازگشتی» می‌دهد. تصور کنید سیستمی که نه تنها جواب سؤالات را یاد می‌گیرد، بلکه ابزار ساخت و ارزیابی خودش را بازطراحی می‌کند تا هر بار دقیق‌تر شود.

طبق مقاله‌ای که در ۹ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، ماشین گودل داروین (Darwin Goedel Machine یا DGM) ثابت کرد که اصلاح بازگشتی ساختار (Recursive Self-Design) می‌تواند نرخ موفقیت در بنچمارک SWE-bench Verified را از ۲۰٪ به ۵۰٪ افزایش دهد. این نتیجه نشان‌دهنده گذار از فاز «اختراع» (۰ به ۱) به فاز «مقیاس‌پذیری بازگشتی» (۱ به N) است.

در حالی که پیش از این در تحلیل‌های ما درباره‌ی ناپایداری تعاملات سخت‌افزاری — مانند کرش کردن‌های GPUهای Metal در مک با بردار معنایی (Embedding) مدل Qwen3 — بحث کردیم، این پژوهش در لایه‌ای بالاتر، یعنی ارکستراسیون تکاملی معماری‌ها عمل می‌کند. برخلاف متدهای رایج که بر قوانین مقیاس‌پذیری (Scaling Laws) یا تنظیم دقیق (Fine-tuning) انسانی متکی هستند، DGM هدف اصلاح را از وزن‌های مدل به «فضای طراحی» منتقل کرده است.

بر اساس مستندات این پژوهش، توسعه‌دهندگان چهار معیار برای اثبات این قابلیت تعریف کردند: سیستم هدف قابل بازرسی، اصلاح‌کننده در سطح متا، انتخاب مبتنی بر بازخورد و تداوم بازگشتی. پس از بررسی سیستم‌هایی نظیر STOP، Goedel Agent و ShinkaEvolve، بیشترین شواهد موفقیت در DGM مشاهده شد.

یافته‌های کلیدی این مطالعه عبارتند از:

افزایش دقت در SWE-bench Verified از ۲۰٪ به ۵۰٪ پس از ۸۰ تکرار.
رشد عملکرد در بنچمارک Polyglot از ۱۴.۲٪ به ۳۰.۷٪.
اثبات اینکه اکتشافات باز و خودبهبودی، موتورهای اصلی این پیشرفت هستند.

برای استانداردسازی این آزمایش‌ها، تیم پژوهش کدبیس و پروتکل MetaAI-Mini را بر پایه HumanEval منتشر کرده است.

گام بعدی شما

پیاده‌سازی پروتکل MetaAI-Mini برای تست قابلیت‌های خودبهبودی روی بنچمارک‌های تخصصی خود.
بررسی اثرات حذف RLHF انسانی در مواجهه با جست‌وجوهای خودکار مبتنی بر بازخورد.
پایش احتمال بروز رفتارهای «هک پاداش» (Reward Hacking) در حلقه‌های بازگشتی طولانی.

اما این جهش در کدنویسی تنها بخشی از تصویر است؛ تأثیر این رویکرد بر تکامل مدل‌های استدلالی در گزارش بعدی بررسی خواهیم کرد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

یافته‌های کلیدی این مطالعه عبارتند از:

افزایش دقت در SWE-bench Verified از ۲۰٪ به ۵۰٪ پس از ۸۰ تکرار.
رشد عملکرد در بنچمارک Polyglot از ۱۴.۲٪ به ۳۰.۷٪.
اثبات اینکه اکتشافات باز و خودبهبودی، موتورهای اصلی این پیشرفت هستند.

برای استانداردسازی این آزمایش‌ها، تیم پژوهش کدبیس و پروتکل MetaAI-Mini را بر پایه HumanEval منتشر کرده است.

گام بعدی شما

پیاده‌سازی پروتکل MetaAI-Mini برای تست قابلیت‌های خودبهبودی روی بنچمارک‌های تخصصی خود.
بررسی اثرات حذف RLHF انسانی در مواجهه با جست‌وجوهای خودکار مبتنی بر بازخورد.
پایش احتمال بروز رفتارهای «هک پاداش» (Reward Hacking) در حلقه‌های بازگشتی طولانی.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا طراحی بازگشتی در DGM باعث جهش ۲.۵ برابری عملکرد در بنچمارک SWE-bench شد؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا طراحی بازگشتی در DGM باعث جهش ۲.۵ برابری عملکرد در بنچمارک SWE-bench شد؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا طراحی بازگشتی در DGM باعث جهش ۲.۵ برابری عملکرد در بنچمارک SWE-bench شد؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا طراحی بازگشتی در DGM باعث جهش ۲.۵ برابری عملکرد در بنچمارک SWE-bench شد؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران