اگر امروز بودجه استنتاج خود را بر اساس یک مدل واحد تنظیم کردهاید، استراتژی شما با معرفی GPT-5.6 تغییر میکند؛ چراکه حالا باید بین دقت مطلق و هزینه عملیاتی یکی را انتخاب کنید. امتیاز ۹۱.۹۱٪ در محک Terminal-Bench 2.1 نشان میدهد که OpenAI توانسته است شکاف بین برنامهنویسی ساده و اجرای واقعی دستورات در محیط ترمینال را پر کند. این موفقیت در راستای تثبیت برتری OpenAI در کدنویسی عاملمحور است که جایگاه این شرکت را در برابر رقبا مستحکم میکند. به گزارش MarkTechPost، این دستاورد همزمان با تغییر استراتژی انتشار OpenAI رخ داد. شرکت بهجای یک بهروزرسانی تکبعدی و یکپارچه، خانوادهای از مدلها را معرفی کرده است تا توسعهدهندگان بتوانند بر اساس نیازهای خاص تولید و هزینهها، مدل مناسب را انتخاب کنند.
این تغییر ساختاری در زمانی رخ میدهد که توسعهدهندگان برای ایجاد تعادل بین هوش خام و هزینههای رو به افزایش استنتاج در تکاپو هستند. با تقسیم نسل جدید به لایههای قابلیتهای بادوام — یعنی Sol، Terra و Luna — شرکت OpenAI به کاربران اجازه میدهد تا بدون نیاز به انتظار برای یک جهش نسلی کامل، مدلی را بر اساس نیازهای عملیاتی خود انتخاب کنند. اکنون هر یک از این لایهها میتوانند طبق یک برنامه زمانی مستقل از دیگری پیشرفت کنند.
OpenAI پیشنمایش محدودی از این سری را برای گروه کوچکی از شرکای مورد اعتماد از طریق API و Codex آغاز کرده است. نکته قابل توجه این است که شرکت پیش از هر نهاد یا entity دیگری، این مدلها و برنامههای خود را با دولت ایالات متحده به اشتراک گذاشت. دسترسی گستردهتر در ChatGPT، Codex و API برای هفتههای آینده برنامهریزی شده است.
مدل GPT-5.6 دو کنترل استدلالی مجزا را معرفی میکند که تأخیر (Latency) را با دقت معاوضه میکنند:
- حالت Max: زنجیره تفکر (Chain-of-Thought) — مثل وقتی شاگرد ریاضی پای تخته بلند بلند فکر میکند تا به جواب برسد — را عمیقتر میکند. این حالت به Sol بیشترین زمان را میدهد تا برای پیچیدهترین مسائل، استدلالی عمیق انجام دهد.
- حالت Ultra: چندین عامل (Agent) کوچک را برای تقسیم و تسریع کارهای پیچیده هماهنگ میکند؛ رویکردی شبیه به یک ارتش از مورچهها یا یک «سوارم» (Swarm) بهجای آنکه یک مدل به تنهایی روی مسئله کار کند.
جزئیات لایههای مدل بر اساس هزینه، سرعت و عملکرد به شرح زیر است:
- Sol: مدل پرچمدار و قدرتمندترین مدل تا به امروز است. این مدل برای کدنویسی بلندمدت (Long-horizon coding)، امنیت و سیستمهای عاملی طراحی شده است. قیمت آن ۵ دلار برای ۱ میلیون توکن ورودی و ۳۰ دلار برای ۱ میلیون توکن خروجی است.
- Terra: هدف این مدل کارهای تولیدی روزمره و وظایفی با حجم بالا است. عملکرد آن با GPT-5.5 برابری میکند در حالی که هزینه آن تقریباً نصف است (۲.۵۰ دلار برای ورودی و ۱۵ دلار برای خروجی به ازای هر ۱ میلیون توکن).
- Luna: سریعترین و ارزانترین گزینه برای کارهای روتین، تکمیل خودکار (Autocomplete) و مسیریابی (Routing) است. این مدل پایینترین نقطه قیمتی را دارد: ۱ دلار برای ۱ میلیون توکن ورودی و ۶ دلار برای ۱ میلیون توکن خروجی.
بررسیهای بنچمارک نشان میدهد Sol در حوزههای تخصصی برتری چشمگیری دارد. در Terminal-Bench 2.1، حالت Sol (ultra) به امتیاز ۹۱.۹۱٪ و حالت Sol (max) به ۸۸.۷۶٪ رسید و بدین ترتیب مدلهای Claude Mythos 5 (با ۸۸٪) و GPT-5.5 (با ۸۳.۴٪) را شکست داد. همچنین در آزمون Agent’s Last Exam، مدل Sol تنها مدلی بود که توانست از مرز ۵۰ درصد عبور کند و در «حالت کد» به امتیاز ۵۰.۹٪ رسید.
پیشرفتهای Sol به علوم و امنیت نیز کشیده شده است. بر اساس مستندات، این مدل در GeneBench v1 در تحلیلهای ژنومیک بلندمدت، GPT-5.5 را شکست داد در حالی که از توکنهای کمتری استفاده میکرد. در حوزه امنیت سایبری نیز، این مدل در ExploitBench با استفاده از تنها یکسوم توکنهای خروجی، رقابتی برابر با Mythos Preview داشت؛ موضوعی که در بررسی تطبیقی برتری Sol در استدلالهای امنیتی به تفصیل مورد بحث قرار گرفته است.
OpenAI برای فاز بعدی بر پایداری و سرعت تمرکز کرده است. این شرکت قصد دارد Sol را روی سختافزار Cerebras اجرا کند تا تا جولای به سرعت ۷۵۰ توکن (Token) — تکههای کوچکی از متن شبیه برشهای کیک — در ثانیه برسد. همچنین سیستم کشینگ (Caching) یک بازنگری فنی داشته است؛ به گونهای که نقاط شکست صریح کش (Explicit cache breakpoints) و حداقل عمر کش ۳۰ دقیقهای تعریف شده است. هزینه نوشتن در کش ۱.۲۵ برابر نرخ ورودی بدون کش است، در حالی که خواندن از کش تخفیف ۹۰ درصدی خود را حفظ کرده است.
برای یک مالک کسبوکار، این یعنی استراتژی «یک مدل برای همه» مرده است. شما اکنون میتوانید طبقهبندی ایمیلهای ساده را به Luna بسپارید و حالت گرانقیمت Sol 'ultra' را فقط برای تحقیقات آسیبپذیری رزرو کنید تا هزینههای عملیاتی بهشدت کاهش یابد. برای مثال، Terra میتواند روزانه هزاران تیکت پشتیبانی را با هزینهای کمتر از مدلهای قبلی تلخیص کند.
از منظر فنی، معماری زیر-عاملی Ultra نشان میدهد OpenAI به سمت «هوش جمعی» یا swarm-based intelligence حرکت میکند. در این وضعیت، گلوگاه دیگر تعداد پارامترهای خام نیست، بلکه کارایی سازماندهی و ارکستراسیون عاملهاست.
در حال حاضر دسترسی تنها برای حدود ۲۰ شریک تجاری مورد اعتماد از طریق API و Codex محدود است. این پرسش همچنان باز است که آیا لایههای حفاظتی (Safety stack) این مدل، تحقیقات مشروع در زمینه امنیت دو منظوره (Dual-use) را مسدود خواهد کرد یا خیر. شما باید عرضه عمومی را رصد کنید تا ببینید آیا تأخیر در استدلالِ حالت 'max'، استفاده از Sol را در گردشهای کاری عاملیِ آنی (Real-time agentic workflows) غیرعملی میکند یا خیر.
گام بعدی شما
- اگر از APIهای گرانقیمست استفاده میکنید، لیست تسکهای خود را به سه دسته «سریع»، «تولیدی» و «استدلالی» تقسیم کنید تا برای مهاجرت به Luna و Terra آماده شوید.
- عملکرد مدلهای لایه پایین (مانند Luna) را در کارهای روتین تست کنید تا نقطه شکست کیفیت را بیابید.
- برای پروژههای امنیتی، تفاوت خروجی حالت Max و Ultra را در شناسایی آسیبپذیریها رصد کنید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو