باید میان برتری در کدنویسی خام و دقت در مدیریت عاملهای خودگردان یکی را انتخاب کنید. در ژوئن ۲۰۲۶، Claude Opus 4.8 با کسب ۴ امتیاز بیشتر از GPT-5.5 در مقیاس ترکیبی BenchLM، سقف توانمندیهای فعلی مدلهای زبانی بزرگ (Large Language Models) را جابهجا کرد.
این تغییر در بازهی زمانی تکرارهای متراکم سهماهه دوم ۲۰۲۶ رخ داده است. طبق گزارش فنی منتشرشده در ۹ ژوئن ۲۰۲۶ در وبسایت dev.to، رقابت در این صنعت به یک فضای سهلایه تبدیل شده است که مدلهای پیشرو متنباز نیز در آن جایگاه ویژهای دارند. همانطور که در تحلیلهای قبلی ما دربارهی قوانین مقیاسپذیری اشاره کردیم، رشد خطی توانمندیها اکنون جای خود را به تخصصهای عملیاتی داده است.
برای ارزیابی دقیق، باید از دو لنز متفاوت استفاده کرد: BenchLM (مجموعه ۲۳۷ بنچمارک عینی) و Arena Elo (ترجیح انسانی). بر اساس مستندات این گزارش، بازار به سه سطح تقسیم شده است:
- سطح ۱: Claude Opus 4.8 (امتیاز ۹۵) با نمره ۹۸.۹ در کدنویسی تسلط دارد، در حالی که GPT-5.5 (امتیاز ۹۱) در وظایف عاملمحور (Agentic) با نمره ۹۸.۰ و استدلال با نمره ۹۶.۹ پیشتازی میکند.
- سطح ۲: Gemini 3.5 Flash (امتیاز ۸۷) به عنوان یک مدل چندوجهی (Multimodal) با عملکرد حرفهای در سطح عاملها و هزینه ۱.۵۰ دلار به ازای هر میلیون توکن ورودی ظاهر شده است. در کنار آن، مدل پیشرو متنباز DeepSeek V4 Pro (Max) نیز با امتیاز ۸۷ قرار دارد.
- سطح ۳: MiniMax M3 (امتیاز ۷۶) و DeepSeek V4 Flash (امتیاز ۵۷) که اولویت آنها بهینهسازی شدید هزینه است.



برای جامعه فنی، حیاتیترین نکته، انحراف میان نمرات عینی و ترجیحات انسانی است. به نقل از تحلیلگران، Claude Opus 4.7 در حال حاضر در Arena Elo رتبهای بالاتر از نسخه ۴.۸ دارد؛ نه به دلیل ضعف مدل جدید، بلکه چون سیستم Bradley-Terry برای همگرایی Elo به ۴ تا ۸ هفته زمان نیاز دارد و حالت «تفکر» در نسخه ۴.۸ هنوز بهطور گسترده مستقر نشده است. این یعنی BenchLM عملکرد تئوریک حداکثری را میسنجد، اما Elo بازتابدهندهی «تجربه روزمره» کاربر است.
در نتیجه، عصر «مدل همهکاره» به پایان رسیده است. دادهها نشان میدهند توسعهدهندگان باید زنجیرههای ابزاری تخصصی بسازند؛ یعنی استفاده از Opus برای پردازشهای دستهای و کدنویسی، و بهرهگیری از GPT برای عاملهای تعاملی.
گام بعدی شما
- برای پروژههای کدنویسی سنگین و بازبینی خودکار، از Claude Opus 4.8 استفاده کنید.
- برای پیادهسازی عاملهای تعاملی و دستیارهای هوشمند، GPT-5.5 را انتخاب کنید.
- رتبههای Arena Elo را در ماه آینده دنبال کنید تا همگرایی نمرات ترجیح انسانی برای Opus 4.8 را ارزیابی نمایید.
اما بررسی ابعاد هفتگانهی توانمندیها، از ریاضیات تا بازیابی متون طولانی، لایههای پیچیدهتری را فاش میکند — در گزارش بعدی این سری، این جزئیات را کالبدشکافی خواهیم کرد.


گفتگو