تصور کنید سیستمی را که نه تنها دستورات شما را اجرا میکند، بلکه فعالانه نسخهی قدرتمندتر و هوشمندتر خود را طراحی و آموزش میدهد. اگر فکر میکنید هنوز کنترل این فرآیند در دست انسان است، باید بدانید که زمان این توهم رو به پایان است.
جک کلارک (Jack Clark)، از بنیانگذاران Anthropic، هشدار میدهد که این حلقهی بازگشتی دیگر یک داستان علمی-تخیلی نیست، بلکه یک واقعیت فنی قریبالوقوع است. به نقل از خبرنامه Import AI، احتمال ۶۰ درصدی وجود دارد که سیستمهای هوش مصنوعی زاینده (Generative AI) تا پایان سال ۲۰۲۸، بدون دخالت انسان قادر به آموزش جانشینان خود باشند. او استدلال میکند که بخشهای عملیاتی پژوهشهای هوش مصنوعی، یعنی مقیاسبندی، عیبیابی و تنظیم پارامترها، همین حالا هم در دسترس مدلهای فعلی هستند.
شواهد این تسریع در نتایج بنچمارکها (Benchmarks) مشهود است:
- SWE-Bench: نرخ موفقیت از ۲ درصد (در مدل Claude 2، اواخر ۲۰۲۳) به ۹۳.۹ درصد رسیده است.
- CORE-Bench: یکی از نویسندگان اعلام کرده که این بنچمارک با نرخ ۹۵.۵ درصد عملاً حل شده است.
- MLE-Bench: امتیازات برتر از ۱۶.۹ به ۶۴.۴ درصد افزایش یافتهاند.
سرعت پیشرفت در حال شتاب گرفتن است. طبق گزارش یک تست داخلی در Anthropic که در آوریل ۲۰۲۶ انجام شد، مدلها توانستند یک پیادهسازی آموزشی مبتنی بر CPU را بهینهسازی کنند تا به افزایش سرعت ۵۲ برابری دست یابند؛ رقمی که در مقایسه با افزایش ۲.۹ برابری مدل Opus 4 در می ۲۰۲۵، خیرهکننده است.
همانطور که در تحلیل قبلی ما دربارهی رقابت ۵.۵ میلیارد دلاری OpenAI و Anthropic برای مقیاسبندی هوش مصنوعی سازمانی اشاره کردیم، این چرخش نشان میدهد که رقابت از «جمعآوری داده» به سمت «تحقیق و توسعهی خودکار» حرکت کرده است.
با این حال، این شتاب یک شکاف امنیتی بحرانی ایجاد میکند. کلارک هشدار میدهد که تکنیکهای فعلی همراستاسازی (Alignment) زمانی که مدلها از ناظران انسانی باهوشتر شوند، از کار میافتند. او به مشکل «خطای انباشته» اشاره میکند: تکنیکی با دقت ۹۹.۹ درصد، پس از ۵۰۰ نسل بهبود بازگشتی، تنها ۶۰ درصد قابلیت اطمینان خواهد داشت.
البته همه با این دیدگاه موافق نیستند. هربی بردلی، پژوهشگر این حوزه، معتقد است که اگرچه هوش مصنوعی میتواند کارهای پژوهشی سطح «جونیور» را انجام دهد، اما هنوز فاقد «سلیقهی پژوهشی» و چشمانداز بلندمدتی است که برای تغییر پارادایمهای علمی لازم است.
این تنها آغاز ماجراست؛ اثر موجگونهی این تصمیم بر اکوسیستم متنباز و ظهور «اقتصاد ماشینها» را در گزارش بعدی بررسی خواهیم کرد.
گام بعدی شما
- بررسی متدولوژیهای جدید نظارت بر مدلهای استدلالی برای جلوگیری از خطاهای انباشته.
- دنبال کردن گزارشهای مربوط به بنچمارکهای MLE-Bench برای سنجش توانایی مدلها در پژوهش خودکار.
- مطالعهی تفاوت بین «بهینهسازی پارامتر» و «نوآوری در معماری» توسط مدلهای زبانی.




گفتگو