GPT-5.6 Sol با امتیاز ۹۱.۹٪ برتری OpenAI در کدنویسی عامل‌محور را تثبیت کرد

تصور کنید ابزاری دارید که نه تنها کد می‌نویسد، بلکه مثل یک مهندس ارشد، پیچیده‌ترین حفره‌های امنیتی سیستم‌های جهانی را می‌بیند و می‌بندد. این دقیقاً همان ادعایی است که OpenAI با معرفی خانواده مدل‌های جدید خود به دنبال آن است.

طبق گزارش the-decoder.com، مدل پرچم‌دار GPT-5.6 Sol Ultra در ۲۶ ژوئن ۲۰۲۶ با کسب امتیاز ۹۱.۹ درصد در محک Terminal-Bench 2.1، رقیب دیرینه خود یعنی Claude Mythos (با ۸۸ درصد) را پشت سر گذاشت. این پیشتازی در کدنویسی عامل‌محور (Agentic) — یعنی سیستمی که مثل یک کارمند مستقل، هدف را می‌گیرد و مراحل رسیدن به آن را خودش مدیریت می‌کند — جایگاه OpenAI را در صدر جدول بازگرداند و هم‌زمان توانایی‌های این مدل را در وظایف سطح بالای امنیت سایبری با رقبایش برابر کرد. این دستاوردهای فنی در ادامه مقایسه‌های دقیقی قرار دارد که برتری مدل Sol در استدلال‌های عامل‌محور و کاهش چشمگیر توکن‌های مصرفی در حملات سایبری نسبت به Mythos را نشان می‌دهد.

زمینه و فضای نظارتی

این عرضه در بازاری بی‌ثبات صورت می‌گیرد که در آن دولت ایالات متحده هر روز بیشتر بر دسترسی به مدل‌ها کنترل اعمال می‌کند. پیش از این، همین دولت شرکت Anthropic را مجبور کرد تا مدل Fable 5 خود را از بازار جمع کند. در نتیجه، دسترسی به GPT-5.6 Sol در حال حاضر تنها برای شرکای منتخب از طریق API و Codex و آن هم طبق دستور صریح دولت ایالات متحده امکان‌پذیر است.

OpenAI نارضایتی خود را از این محدودیت‌ها پنهان نمی‌کند. این شرکت در بیانیه‌ای صریح نوشت: «ما معتقد نیستیم فرآیند دسترسی دولتی باید به پیش‌فرض بلندمدت تبدیل شود. این کار بهترین ابزارها را از دسترس کاربران، توسعه‌دهندگان، سازمان‌ها، مدافعان سایبری و شرکای جهانی که به آن‌ها نیاز دارند، دور می‌کند.»

همان‌طور که در تحلیل قبلی ما درباره‌ی پروژه Jalapeño اشاره کردیم، OpenAI برای کاهش وابستگی به سخت‌افزارهای انویدیا در حال متنوع‌سازی زیرساخت‌های خود است؛ اما حالا با یک سد نرم‌افزاری مواجه شده است: گلوگاه‌های توزیع نرم‌افزار که توسط نظارت‌های فدرال ایجاد شده‌اند.

لایه‌های مدل و منطق عملیاتی

برای مدیریت انتظارات و هزینه‌ها، OpenAI یک ساختار نام‌گذاری سه‌لایه جدید معرفی کرده است تا با ساختار مورد استفاده در مدل‌های Claude هماهنگ شود. در این سیستم، عدد (x.6) نشان‌دهنده نسل مدل است، در حالی که نام‌ها نشان‌دهنده لایه‌های عملکردی دائمی هستند:

Sol: پرچم‌دار سطح بالا برای حداکثری‌ترین عملکرد.
Terra: معادل GPT-5.5 اما با نصف هزینه استنتاج.
Luna: گزینه‌ای ارزان و اقتصادی برای تسک‌های حجیم با پیچیدگی کم.

علاوه بر این، مدل Sol دارای حالت «max» برای مدل استدلالی (Reasoning Model) — شبیه شطرنج‌بازی که قبل از هر حرکت، چندین گام جلوتر را می‌بیند — و حالت «ultra» است که برای گردش‌های کاری پیچیده، زیر-عامل‌های موازی (Parallel Sub-agents) را مستقر می‌کند تا وظایف را به‌صورت توزیع‌شده پیش ببرد.

پرتاب GPT-5.6 Sol اوپن‌ای‌ای برای رقابت با Claude Mythos تحت قوانین دسترسی دولتی که آن را غیرقابل‌دوام می‌نامد

جزئیات بنچمارک‌ها و عملکرد

در بررسی دقیق‌تر بنچمارک‌ها، تسلط Sol در کدنویسی عامل‌محور مشهود است. در Terminal-Bench 2.1، نسخه استاندارد Sol امتیاز ۸۸.۸ درصد را به دست آورد، در حالی که Fable 5 با ۸۴.۳ درصد و Gemini 3.1 Pro Preview گوگل با ۷۰.۷ درصد بسیار عقب‌تر بودند.

در حوزه ژنومیک، Sol در GeneBench v1 با کسب امتیاز ۳۰ درصد (در برابر ۲۲ درصد بهترین حالت در GPT-5.5) برتری یافت، در حالی که توکن (Token) — تکه‌های کوچکی از متن که شبیه برش‌های یک کیک طولانی هستند و مدل آن‌ها را می‌خواند — کمتری مصرف کرد. همچنین در ExploitBench، این مدل توانست عملکرد Claude Mythos Preview را به बराबरी بکشد و حفره‌های موتور V8 جاوااسکریپت گوگل را برای اجرای کامل کد (Full Code Execution) شناسایی کند، در حالی که تنها یک‌سوم توکن‌های خروجی رقیب خود را مصرف کرد.

پرچم‌دار هوش مصنوعی جدید اوپن‌ای‌ای با محدودیت‌های دولتی روبروست

امنیت و مقیاس‌پذیری

OpenAI مدل Sol را بیشتر به عنوان یک ابزار دفاعی معرفی می‌کند تا یک سلاح تهاجمی. بر اساس مستندات شرکت، اگرچه این مدل می‌تواند «Primitives» بهره‌برداری در مرورگرهای Chromium و Firefox را شناسایی کند، اما هنوز زیر آستانه «بحرانی سایبری» (Cyber Critical) در چارچوب آمادگی (Preparedness Framework) شرکت قرار دارد و هنوز نمی‌تواند به‌طور خودکار حملات زنجیره‌ای کامل (Full-chain Exploits) ایجاد کند.

داده‌های ExploitGym (بنچمارکی که توسط پژوهشگران UC Berkeley و سایر آزمایشگاه‌ها ایجاد شده) نشان می‌دهد که با افزایش تلاش برای استدلال، عملکرد هر سه مدل سری GPT-5.6 بهبود می‌یابد. این موضوع نشان می‌دهد که با افزایش محاسبات (Compute)، پتانسیل رشد و مقیاس‌پذیری مدل‌های آینده همچنان بسیار بالاست.

قیمت‌گذاری و زیرساخت اقتصادی

از نظر اقتصادی، OpenAI تلاش می‌کند روند صعودی هزینه‌های هوش مصنوعی را معکوس کند. قیمت هر میلیون توکن به شرح زیر است:

Sol: ۵ دلار ورودی / ۳۰ دلار خروجی
Terra: ۲.۵ دلار ورودی / ۱۵ دلار خروجی
Luna: ۱ دلار ورودی / ۶ دلار خروجی

به‌دلیل اینکه Sol برای رسیدن به نتایج یکسان با رقبای خود، توکن‌های کمتری مصرف می‌کند، هزینه نهایی هر تسک برای برنامه‌نویسان احتمالاً کاهش می‌یابد. برای بهینه‌سازی بیشتر، OpenAI سیستم حافظه موقت (Prompt Caching) را بازسازی کرده است. این سیستم اکنون شامل نقاط شکست صریح (Explicit Cache Breakpoints) و حداقل عمر ۳۰ دقیقه‌ای است. هزینه نوشتن در حافظه ۱.۲۵ برابر قیمت ورودی عادی است، در حالی که خواندن از حافظه دارای تخفیف ۹۰ درصدی است.

این استراتژی مستقیماً تهدید رقابتی مدل‌های ارزان‌تر چینی را هدف قرار می‌دهد. با ترکیب تعداد توکن کمتر و مدل قیمت‌گذاری لایه‌ای، OpenAI از مقیاس‌بندیِ صرفاً مبتنی بر عملکرد، به سمت مقیاس‌بندیِ مبتنی بر بهره‌وری هزینه حرکت می‌کند.

از جولای ۲۰۲۶، Sol با سخت‌افزارهای Cerebras ادغام می‌شود تا سرعت استنتاج (Inference) — لحظه‌ای که مدل واقعاً جواب تولید می‌کند و شبیه خودِ آشپزی است نه آموزش آن — را به ۷۵۰ توکن در ثانیه برساند. این حرکت احتمالاً واکنش Anthropic را در مورد بهره‌وری استنتاج و روابط دولتی‌اش برمی‌انگیزد.

گام بعدی شما

اگر توسعه‌دهنده هستید، ساختار قیمت‌گذاری مدل Luna را برای تسک‌های تکراری بررسی کنید تا هزینه‌ها را بهینه کنید.
در صورت دسترسی به API، حالت ultra را برای اتوماسیون‌های چندمرحله‌ای تست کنید.
تغییرات سیستم Caching را در معماری اپلیکیشن خود اعمال کنید تا تأخیر در پاسخ‌دهی کم شود.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است؛ اثر ادغام با Cerebras بر رقابت سرعت استنتاج را در گزارش بعدی بررسی خواهیم کرد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

زمینه و فضای نظارتی

لایه‌های مدل و منطق عملیاتی

Sol: پرچم‌دار سطح بالا برای حداکثری‌ترین عملکرد.
Terra: معادل GPT-5.5 اما با نصف هزینه استنتاج.
Luna: گزینه‌ای ارزان و اقتصادی برای تسک‌های حجیم با پیچیدگی کم.

پرتاب GPT-5.6 Sol اوپن‌ای‌ای برای رقابت با Claude Mythos تحت قوانین دسترسی دولتی که آن را غیرقابل‌دوام می‌نامد

جزئیات بنچمارک‌ها و عملکرد

پرچم‌دار هوش مصنوعی جدید اوپن‌ای‌ای با محدودیت‌های دولتی روبروست

امنیت و مقیاس‌پذیری

قیمت‌گذاری و زیرساخت اقتصادی

Sol: ۵ دلار ورودی / ۳۰ دلار خروجی
Terra: ۲.۵ دلار ورودی / ۱۵ دلار خروجی
Luna: ۱ دلار ورودی / ۶ دلار خروجی

گام بعدی شما

اگر توسعه‌دهنده هستید، ساختار قیمت‌گذاری مدل Luna را برای تسک‌های تکراری بررسی کنید تا هزینه‌ها را بهینه کنید.
در صورت دسترسی به API، حالت ultra را برای اتوماسیون‌های چندمرحله‌ای تست کنید.
تغییرات سیستم Caching را در معماری اپلیکیشن خود اعمال کنید تا تأخیر در پاسخ‌دهی کم شود.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

GPT-5.6 Sol با امتیاز ۹۱.۹٪ برتری OpenAI در کدنویسی عامل‌محور را تثبیت کرد

زمینه و فضای نظارتی

لایه‌های مدل و منطق عملیاتی

جزئیات بنچمارک‌ها و عملکرد

امنیت و مقیاس‌پذیری

قیمت‌گذاری و زیرساخت اقتصادی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

GPT-5.6 Sol با امتیاز ۹۱.۹٪ برتری OpenAI در کدنویسی عامل‌محور را تثبیت کرد

زمینه و فضای نظارتی

لایه‌های مدل و منطق عملیاتی

جزئیات بنچمارک‌ها و عملکرد

امنیت و مقیاس‌پذیری

قیمت‌گذاری و زیرساخت اقتصادی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

GPT-5.6 Sol با امتیاز ۹۱.۹٪ برتری OpenAI در کدنویسی عامل‌محور را تثبیت کرد

زمینه و فضای نظارتی

لایه‌های مدل و منطق عملیاتی

جزئیات بنچمارک‌ها و عملکرد

امنیت و مقیاس‌پذیری

قیمت‌گذاری و زیرساخت اقتصادی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

GPT-5.6 Sol با امتیاز ۹۱.۹٪ برتری OpenAI در کدنویسی عامل‌محور را تثبیت کرد

زمینه و فضای نظارتی

لایه‌های مدل و منطق عملیاتی

جزئیات بنچمارک‌ها و عملکرد

امنیت و مقیاس‌پذیری

قیمت‌گذاری و زیرساخت اقتصادی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران