باید بدانید که عصر تکیه مطلق به دادههای انسانی برای ارتقای مدلها در حال پایان است و جای خود را به «طراحی بازگشتی» میدهد. تصور کنید سیستمی که نه تنها جواب سؤالات را یاد میگیرد، بلکه ابزار ساخت و ارزیابی خودش را بازطراحی میکند تا هر بار دقیقتر شود.
طبق مقالهای که در ۹ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، ماشین گودل داروین (Darwin Goedel Machine یا DGM) ثابت کرد که اصلاح بازگشتی ساختار (Recursive Self-Design) میتواند نرخ موفقیت در بنچمارک SWE-bench Verified را از ۲۰٪ به ۵۰٪ افزایش دهد. این نتیجه نشاندهنده گذار از فاز «اختراع» (۰ به ۱) به فاز «مقیاسپذیری بازگشتی» (۱ به N) است.
در حالی که پیش از این در تحلیلهای ما دربارهی ناپایداری تعاملات سختافزاری — مانند کرش کردنهای GPUهای Metal در مک با بردار معنایی (Embedding) مدل Qwen3 — بحث کردیم، این پژوهش در لایهای بالاتر، یعنی ارکستراسیون تکاملی معماریها عمل میکند. برخلاف متدهای رایج که بر قوانین مقیاسپذیری (Scaling Laws) یا تنظیم دقیق (Fine-tuning) انسانی متکی هستند، DGM هدف اصلاح را از وزنهای مدل به «فضای طراحی» منتقل کرده است.
بر اساس مستندات این پژوهش، توسعهدهندگان چهار معیار برای اثبات این قابلیت تعریف کردند: سیستم هدف قابل بازرسی، اصلاحکننده در سطح متا، انتخاب مبتنی بر بازخورد و تداوم بازگشتی. پس از بررسی سیستمهایی نظیر STOP، Goedel Agent و ShinkaEvolve، بیشترین شواهد موفقیت در DGM مشاهده شد.
یافتههای کلیدی این مطالعه عبارتند از:
- افزایش دقت در SWE-bench Verified از ۲۰٪ به ۵۰٪ پس از ۸۰ تکرار.
- رشد عملکرد در بنچمارک Polyglot از ۱۴.۲٪ به ۳۰.۷٪.
- اثبات اینکه اکتشافات باز و خودبهبودی، موتورهای اصلی این پیشرفت هستند.
برای استانداردسازی این آزمایشها، تیم پژوهش کدبیس و پروتکل MetaAI-Mini را بر پایه HumanEval منتشر کرده است.
گام بعدی شما
- پیادهسازی پروتکل MetaAI-Mini برای تست قابلیتهای خودبهبودی روی بنچمارکهای تخصصی خود.
- بررسی اثرات حذف RLHF انسانی در مواجهه با جستوجوهای خودکار مبتنی بر بازخورد.
- پایش احتمال بروز رفتارهای «هک پاداش» (Reward Hacking) در حلقههای بازگشتی طولانی.
اما این جهش در کدنویسی تنها بخشی از تصویر است؛ تأثیر این رویکرد بر تکامل مدلهای استدلالی در گزارش بعدی بررسی خواهیم کرد.
گفتگو