Epoch AI: Claude Opus 4.7 موفق به حل ۵۶٪ تسک‌های MirrorCode شد

تصور کنید یک مهندس نرم‌افزار هفته‌ها وقت صرف کند تا هسته مرکزی یک سیستم پیچیده را بدون دسترسی به کد منبع بازنویسی کند؛ اکنون هوش مصنوعی دقیقاً همین کار را انجام می‌دهد. این سطح از استقلال، تفاوت بنیادین میان یک دستیار ساده و یک عامل تمام‌عیار است.

طبق اعلام Epoch AI و METR، مدل Claude Opus 4.7 توانست ۵۶٪ از تکالیف برنامه‌نویسی MirrorCode را با موفقیت حل کند. این نتیجه ثابت می‌کند که مدل‌ها دیگر تنها به تولید قطعات کوچک کد (Snippets) محدود نیستند و می‌توانند پروژه‌های مهندسی سخت و بلندمدت را پیش ببرند.

همان‌طور که در پوشش پیشین ما درباره‌ی امنیت مدل‌های بازمتن دیدیم، تمرکز صنعت از تولید محتوا به سمت اجرای عملیاتی تغییر کرده است. در حالی که ابزارها پیش‌تر بر روی خودکارسازی مستندات تمرکز داشتند، MirrorCode توانایی مدل‌ها در ساخت هسته عملکردی یک سیستم را از نقطه صفر می‌سنجد. این یک چرخش از حالت «کمک‌خلبان» (Copilot) به سمت اجرای عامل‌محور (Agentic) است. این پیشرفت در برنامه‌نویسی تضاد جالبی با سایر حوزه‌ها دارد؛ چرا که در بخش‌های اداری، تنها ۳٪ از وظایف پیچیده توسط پیشرفته‌ترین مدل‌ها حل شده است و نشان می‌دهد شکاف عملکردی میان کدنویسی و کارهای اداری همچنان عمیق است.

بر اساس گزارش منتشر شده در ۲۶ ژوئن ۲۰۲۶، محک MirrorCode شامل ۲۵ برنامه هدف در حوزه‌های رمزنگاری، بیوانفورماتیک و تحلیل ایستا است. برخلاف محک‌های سنتی که هزینه استنتاج (Inference) را محدود می‌کنند، MirrorCode بودجه‌های محاسباتی عظیمی را برای شبیه‌سازی چرخه‌های واقعی مهندسی در نظر گرفته است.

عملکرد و هزینه‌های بنچمارک

Claude Opus 4.7: حل ۵۶٪ تکالیف؛ از جمله یک ابزار بیوانفورماتیک (gotree) با ۱۶,۰۰۰ خط کد Go در ۱۴ ساعت و با هزینه ۲۵۱ دلار.
GPT-5.5: نرخ موفقیت ۴۴٪، اما هزینه اجرای آن برای تکالیف مشابه سه برابر بیشتر از نسل قبلی بود.
Gemini 3.1 Pro Preview: با نرخ موفقیت ۳۲٪ در جایگاه سوم قرار گرفت.

مدل هوش مصنوعی ۱۹ روز بدون توقف روی یک وظیفه MirrorCode برنامه‌نویسی کرد؛ هزینه اجرا: ۲۶۰۰ دلار

بر اساس مستندات این پژوهش، یکی از افراطی‌ترین موارد، تکلیفی بود که هزینه آن به ۲,۶۰۰ دلار رسید و مدل برای ۱۹ روز متوالی، بدون هیچ دخالت انسانی، در حال اجرا بود. با این حال، محققان سقف مشخصی را شناس کردند: در حالی که برنامه‌های «کوچک» با اطمینان هندل می‌شوند، هیچ مدلی نتوانست گره‌های پیچیده در دسته برنامه‌های «بزرگ» را بگشاید.

مدل هوش مصنوعی ۱۹ روز بدون توقف روی یک وظیفه MirrorCode برنامه‌نویسی کرد؛ هزینه اجرا: ۲۶۰۰ دلار

برای متخصصان فنی، این نتایج پیش‌فرض‌های مربوط به «مسائل سخت برنامه‌نویسی» را تغییر می‌دهد. اینکه مدل‌ها ۹۰٪ تست‌های واحد را حتی در صورت شکست در بازپیاده‌سازی کامل پاس می‌کنند، نشان می‌دهد که صلاحیت عملکردی بالایی وجود دارد و تنها مانع اصلی، «آخرین مایل» یا همان یکپارچه‌سازی نهایی پیچیده است. در این میان، چالش مدیریت کد تولید شده همچنان پابرجاست، چرا که بسیاری از توسعه‌گران متوجه شده‌اند دیباگ کردن کدهای AI می‌تواند هزینه‌برتر از نوشتن دستی آن‌ها باشد.

البته یک نکته حیاتی وجود دارد. Epoch AI اشاره می‌کند که چون اهداف این آزمون از کد‌های بازمنبع گرفته شده‌اند، احتمال دارد مدل‌ها در طول پیش‌آموزش با آن‌ها مواجه شده باشند و بخشی از نتایج ناشی از حافظه (Memorization) باشد نه استدلال خالص.

برای پیشبرد این حوزه، Epoch AI اکنون ۲۲ برنامه از ۲۵ هدف و زیرساخت تست را به‌صورت بازمنبع منتشر کرده است که ۱۳۲ مورد را در ۶ زبان مختلف پوشش می‌دهد. شما می‌توانید از این ابزارها برای استرس‌تست جریان‌های کاری عامل‌محور داخلی خود استفاده کنید.

گام بعدی شما

بررسی مخزن بازمنبع MirrorCode برای ارزیابی توانایی مدل‌های داخلی در بازنویسی سیستم‌های Legacy.
مقایسه هزینه استنتاج در مقابل نرخ موفقیت برای بهینه‌سازی بودجه‌های GPU در پروژه‌های بلندمدت.
مطالعه متدولوژی METR برای درک نحوه مدیریت عامل‌هایی که نیاز به اجرای چندروزه دارند.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

عملکرد و هزینه‌های بنچمارک

Claude Opus 4.7: حل ۵۶٪ تکالیف؛ از جمله یک ابزار بیوانفورماتیک (gotree) با ۱۶,۰۰۰ خط کد Go در ۱۴ ساعت و با هزینه ۲۵۱ دلار.
GPT-5.5: نرخ موفقیت ۴۴٪، اما هزینه اجرای آن برای تکالیف مشابه سه برابر بیشتر از نسل قبلی بود.
Gemini 3.1 Pro Preview: با نرخ موفقیت ۳۲٪ در جایگاه سوم قرار گرفت.

مدل هوش مصنوعی ۱۹ روز بدون توقف روی یک وظیفه MirrorCode برنامه‌نویسی کرد؛ هزینه اجرا: ۲۶۰۰ دلار

گام بعدی شما

بررسی مخزن بازمنبع MirrorCode برای ارزیابی توانایی مدل‌های داخلی در بازنویسی سیستم‌های Legacy.
مقایسه هزینه استنتاج در مقابل نرخ موفقیت برای بهینه‌سازی بودجه‌های GPU در پروژه‌های بلندمدت.
مطالعه متدولوژی METR برای درک نحوه مدیریت عامل‌هایی که نیاز به اجرای چندروزه دارند.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Epoch AI: Claude Opus 4.7 موفق به حل ۵۶٪ تسک‌های MirrorCode شد

عملکرد و هزینه‌های بنچمارک

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Epoch AI: Claude Opus 4.7 موفق به حل ۵۶٪ تسک‌های MirrorCode شد

عملکرد و هزینه‌های بنچمارک

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Epoch AI: Claude Opus 4.7 موفق به حل ۵۶٪ تسک‌های MirrorCode شد

عملکرد و هزینه‌های بنچمارک

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Epoch AI: Claude Opus 4.7 موفق به حل ۵۶٪ تسک‌های MirrorCode شد

عملکرد و هزینه‌های بنچمارک

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران