مدل Sol در بنچمارک Terminal-Bench 2.1 به امتیاز ۹۱.۹۱٪ رسید

اگر امروز بودجه استنتاج خود را بر اساس یک مدل واحد تنظیم کرده‌اید، استراتژی شما با معرفی GPT-5.6 تغییر می‌کند؛ چراکه حالا باید بین دقت مطلق و هزینه عملیاتی یکی را انتخاب کنید. امتیاز ۹۱.۹۱٪ در محک Terminal-Bench 2.1 نشان می‌دهد که OpenAI توانسته است شکاف بین برنامه‌نویسی ساده و اجرای واقعی دستورات در محیط ترمینال را پر کند. این موفقیت در راستای تثبیت برتری OpenAI در کدنویسی عامل‌محور است که جایگاه این شرکت را در برابر رقبا مستحکم می‌کند. به گزارش MarkTechPost، این دستاورد هم‌زمان با تغییر استراتژی انتشار OpenAI رخ داد. شرکت به‌جای یک به‌روزرسانی تک‌بعدی و یکپارچه، خانواده‌ای از مدل‌ها را معرفی کرده است تا توسعه‌دهندگان بتوانند بر اساس نیازهای خاص تولید و هزینه‌ها، مدل مناسب را انتخاب کنند.

این تغییر ساختاری در زمانی رخ می‌دهد که توسعه‌دهندگان برای ایجاد تعادل بین هوش خام و هزینه‌های رو به افزایش استنتاج در تکاپو هستند. با تقسیم نسل جدید به لایه‌های قابلیت‌های بادوام — یعنی Sol، Terra و Luna — شرکت OpenAI به کاربران اجازه می‌دهد تا بدون نیاز به انتظار برای یک جهش نسلی کامل، مدلی را بر اساس نیازهای عملیاتی خود انتخاب کنند. اکنون هر یک از این لایه‌ها می‌توانند طبق یک برنامه زمانی مستقل از دیگری پیشرفت کنند.

OpenAI پیش‌نمایش محدودی از این سری را برای گروه کوچکی از شرکای مورد اعتماد از طریق API و Codex آغاز کرده است. نکته قابل توجه این است که شرکت پیش از هر نهاد یا entity دیگری، این مدل‌ها و برنامه‌های خود را با دولت ایالات متحده به اشتراک گذاشت. دسترسی گسترده‌تر در ChatGPT، Codex و API برای هفته‌های آینده برنامه‌ریزی شده است.

مدل GPT-5.6 دو کنترل استدلالی مجزا را معرفی می‌کند که تأخیر (Latency) را با دقت معاوضه می‌کنند:

حالت Max: زنجیره تفکر (Chain-of-Thought) — مثل وقتی شاگرد ریاضی پای تخته بلند بلند فکر می‌کند تا به جواب برسد — را عمیق‌تر می‌کند. این حالت به Sol بیشترین زمان را می‌دهد تا برای پیچیده‌ترین مسائل، استدلالی عمیق انجام دهد.
حالت Ultra: چندین عامل (Agent) کوچک را برای تقسیم و تسریع کارهای پیچیده هماهنگ می‌کند؛ رویکردی شبیه به یک ارتش از مورچه‌ها یا یک «سوارم» (Swarm) به‌جای آنکه یک مدل به تنهایی روی مسئله کار کند.

جزئیات لایه‌های مدل بر اساس هزینه، سرعت و عملکرد به شرح زیر است:

Sol: مدل پرچم‌دار و قدرتمندترین مدل تا به امروز است. این مدل برای کدنویسی بلندمدت (Long-horizon coding)، امنیت و سیستم‌های عاملی طراحی شده است. قیمت آن ۵ دلار برای ۱ میلیون توکن ورودی و ۳۰ دلار برای ۱ میلیون توکن خروجی است.
Terra: هدف این مدل کارهای تولیدی روزمره و وظایفی با حجم بالا است. عملکرد آن با GPT-5.5 برابری می‌کند در حالی که هزینه آن تقریباً نصف است (۲.۵۰ دلار برای ورودی و ۱۵ دلار برای خروجی به ازای هر ۱ میلیون توکن).
Luna: سریع‌ترین و ارزان‌ترین گزینه برای کارهای روتین، تکمیل خودکار (Autocomplete) و مسیریابی (Routing) است. این مدل پایین‌ترین نقطه قیمتی را دارد: ۱ دلار برای ۱ میلیون توکن ورودی و ۶ دلار برای ۱ میلیون توکن خروجی.

بررسی‌های بنچمارک نشان می‌دهد Sol در حوزه‌های تخصصی برتری چشمگیری دارد. در Terminal-Bench 2.1، حالت Sol (ultra) به امتیاز ۹۱.۹۱٪ و حالت Sol (max) به ۸۸.۷۶٪ رسید و بدین ترتیب مدل‌های Claude Mythos 5 (با ۸۸٪) و GPT-5.5 (با ۸۳.۴٪) را شکست داد. همچنین در آزمون Agent’s Last Exam، مدل Sol تنها مدلی بود که توانست از مرز ۵۰ درصد عبور کند و در «حالت کد» به امتیاز ۵۰.۹٪ رسید.

پیشرفت‌های Sol به علوم و امنیت نیز کشیده شده است. بر اساس مستندات، این مدل در GeneBench v1 در تحلیل‌های ژنومیک بلندمدت، GPT-5.5 را شکست داد در حالی که از توکن‌های کمتری استفاده می‌کرد. در حوزه امنیت سایبری نیز، این مدل در ExploitBench با استفاده از تنها یک‌سوم توکن‌های خروجی، رقابتی برابر با Mythos Preview داشت؛ موضوعی که در بررسی تطبیقی برتری Sol در استدلال‌های امنیتی به تفصیل مورد بحث قرار گرفته است.

OpenAI برای فاز بعدی بر پایداری و سرعت تمرکز کرده است. این شرکت قصد دارد Sol را روی سخت‌افزار Cerebras اجرا کند تا تا جولای به سرعت ۷۵۰ توکن (Token) — تکه‌های کوچکی از متن شبیه برش‌های کیک — در ثانیه برسد. همچنین سیستم کشینگ (Caching) یک بازنگری فنی داشته است؛ به گونه‌ای که نقاط شکست صریح کش (Explicit cache breakpoints) و حداقل عمر کش ۳۰ دقیقه‌ای تعریف شده است. هزینه نوشتن در کش ۱.۲۵ برابر نرخ ورودی بدون کش است، در حالی که خواندن از کش تخفیف ۹۰ درصدی خود را حفظ کرده است.

برای یک مالک کسب‌وکار، این یعنی استراتژی «یک مدل برای همه» مرده است. شما اکنون می‌توانید طبقه‌بندی ایمیل‌های ساده را به Luna بسپارید و حالت گران‌قیمت Sol 'ultra' را فقط برای تحقیقات آسیب‌پذیری رزرو کنید تا هزینه‌های عملیاتی به‌شدت کاهش یابد. برای مثال، Terra می‌تواند روزانه هزاران تیکت پشتیبانی را با هزینه‌ای کمتر از مدل‌های قبلی تلخیص کند.

از منظر فنی، معماری زیر-عاملی Ultra نشان می‌دهد OpenAI به سمت «هوش جمعی» یا swarm-based intelligence حرکت می‌کند. در این وضعیت، گلوگاه دیگر تعداد پارامترهای خام نیست، بلکه کارایی سازمان‌دهی و ارکستراسیون عامل‌هاست.

در حال حاضر دسترسی تنها برای حدود ۲۰ شریک تجاری مورد اعتماد از طریق API و Codex محدود است. این پرسش همچنان باز است که آیا لایه‌های حفاظتی (Safety stack) این مدل، تحقیقات مشروع در زمینه امنیت دو منظوره (Dual-use) را مسدود خواهد کرد یا خیر. شما باید عرضه عمومی را رصد کنید تا ببینید آیا تأخیر در استدلالِ حالت 'max'، استفاده از Sol را در گردش‌های کاری عاملیِ آنی (Real-time agentic workflows) غیرعملی می‌کند یا خیر.

گام بعدی شما

اگر از APIهای گران‌قیمست استفاده می‌کنید، لیست تسک‌های خود را به سه دسته «سریع»، «تولیدی» و «استدلالی» تقسیم کنید تا برای مهاجرت به Luna و Terra آماده شوید.
عملکرد مدل‌های لایه پایین (مانند Luna) را در کارهای روتین تست کنید تا نقطه شکست کیفیت را بیابید.
برای پروژه‌های امنیتی، تفاوت خروجی حالت Max و Ultra را در شناسایی آسیب‌پذیری‌ها رصد کنید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

مدل GPT-5.6 دو کنترل استدلالی مجزا را معرفی می‌کند که تأخیر (Latency) را با دقت معاوضه می‌کنند:

حالت Max: زنجیره تفکر (Chain-of-Thought) — مثل وقتی شاگرد ریاضی پای تخته بلند بلند فکر می‌کند تا به جواب برسد — را عمیق‌تر می‌کند. این حالت به Sol بیشترین زمان را می‌دهد تا برای پیچیده‌ترین مسائل، استدلالی عمیق انجام دهد.
حالت Ultra: چندین عامل (Agent) کوچک را برای تقسیم و تسریع کارهای پیچیده هماهنگ می‌کند؛ رویکردی شبیه به یک ارتش از مورچه‌ها یا یک «سوارم» (Swarm) به‌جای آنکه یک مدل به تنهایی روی مسئله کار کند.

جزئیات لایه‌های مدل بر اساس هزینه، سرعت و عملکرد به شرح زیر است:

Sol: مدل پرچم‌دار و قدرتمندترین مدل تا به امروز است. این مدل برای کدنویسی بلندمدت (Long-horizon coding)، امنیت و سیستم‌های عاملی طراحی شده است. قیمت آن ۵ دلار برای ۱ میلیون توکن ورودی و ۳۰ دلار برای ۱ میلیون توکن خروجی است.
Terra: هدف این مدل کارهای تولیدی روزمره و وظایفی با حجم بالا است. عملکرد آن با GPT-5.5 برابری می‌کند در حالی که هزینه آن تقریباً نصف است (۲.۵۰ دلار برای ورودی و ۱۵ دلار برای خروجی به ازای هر ۱ میلیون توکن).
Luna: سریع‌ترین و ارزان‌ترین گزینه برای کارهای روتین، تکمیل خودکار (Autocomplete) و مسیریابی (Routing) است. این مدل پایین‌ترین نقطه قیمتی را دارد: ۱ دلار برای ۱ میلیون توکن ورودی و ۶ دلار برای ۱ میلیون توکن خروجی.

گام بعدی شما

اگر از APIهای گران‌قیمست استفاده می‌کنید، لیست تسک‌های خود را به سه دسته «سریع»، «تولیدی» و «استدلالی» تقسیم کنید تا برای مهاجرت به Luna و Terra آماده شوید.
عملکرد مدل‌های لایه پایین (مانند Luna) را در کارهای روتین تست کنید تا نقطه شکست کیفیت را بیابید.
برای پروژه‌های امنیتی، تفاوت خروجی حالت Max و Ultra را در شناسایی آسیب‌پذیری‌ها رصد کنید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل Sol در بنچمارک Terminal-Bench 2.1 به امتیاز ۹۱.۹۱٪ رسید

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل Sol در بنچمارک Terminal-Bench 2.1 به امتیاز ۹۱.۹۱٪ رسید

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل Sol در بنچمارک Terminal-Bench 2.1 به امتیاز ۹۱.۹۱٪ رسید

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مدل Sol در بنچمارک Terminal-Bench 2.1 به امتیاز ۹۱.۹۱٪ رسید

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران