تصور کنید به جای تقابل با یک مدل غولپیکر، با ارکستری از متخصصان طرف باشید که هر لحظه باهوشترین عضو تیم برای پاسخ به سوال شما انتخاب میشود. این دقیقاً همان روشی است که Sakana Fugu برای رسیدن به عملکرد مدلهای سطح اول (Frontier) به کار میگیرد. سیستمی را در نظر بگیرید که در آن نیاز به طراحی دستی گردشهای کاری توسط انسان کاملاً حذف شده است؛ چرا که یک معماری چند-عاملی (Multi-Agent architecture) به عنوان یک مدل واحد در نظر گرفته میشود.
این سامانه از طریق یک API سازگار با OpenAI، مدلهای برتر جهان را بهطور پویا سازماندهی میکند و مدیریت انتخاب و جابجایی بین مدلها را بهطور خودکار بر عهده میگیرد. از طریق این رویکرد، Sakana AI کاربران را قادر میسازد تا تکالیف چندمرحلهای را با عملکرد سطح Frontier انجام دهند، در حالی که وابستگی به یک فروشنده واحد (Single-vendor dependency) را از بین میبرند.
اکثر توسعهدهندگان فعلی، گردشهای کاری عاملمحور (Agentic Workflow) — شبیه به تعریف دقیق شرح وظایف برای هر کارمند در یک شرکت — را با تعیین دستی نقشها میسازند؛ مثلاً یک مدل مینویسد و مدل دیگر بررسی میکند. این روش سختگیرانه است و اغلب به شهود انسانی درباره نحوه تقسیم یک تکلیف تکیه دارد. اما Sakana Fugu به عنوان یک تغییر پارادایم (Paradigm Shift) وارد میدان شده است. این سیستم طراحی دستی را با یک سامانه ارکستراسیون یادگیرنده جایگزین میکند که الگوهای همکاری غیربدیهی و بسیار بهینه را بهطور خودکار کشف میکند. به جای استفاده از دانش دامنه برای تجویز سازماندهی تیم، نقشها یا گردشهای کاری، Fugu یاد میگیرد که عاملها را بهطور پویا از یک استخر (Pool) فعال جمعآوری کند.
بر اساس گزارش رسمی منتشر شده در ۲۲ ژوئن ۲۰۲۶، این سامانه بر پایه دو مقاله پژوهشی ICLR ۲۰۲۶ یعنی TRINITY و Conductor بنا شده است. این مبانی پژوهشی سامانه را قادر میسازند تا عاملهای متخصص را بر اساس الزامات خاص هر تکلیف مسیریابی (Route) و متصل کند، به جای اینکه از یک اسکریپت ایستا پیروی کند.
مکانیسم ارکستراسیون
بخش TRINITY یک هماهنگکننده تکاملیافته و سبک (Lightweight evolved coordinator) را معرفی میکند. این جزء، چندین مدل زبانی بزرگ (LLM) — شبیه به کتابخانهداری که میلیاردها صفحه را خوانده و حالا با همان لحن جواب میدهد — را در چندین نوبت مدیریت کرده و نقشهایی مثل «متفکر» (Thinker)، «کارگر» (Worker) یا «تأییدکننده» (Verifier) را بهطور تطبیقی تخصیص میدهد. این انعطافپذیری به سیستم اجازه میدهد تا در تکالیف کدنویسی، ریاضیات و دانش عمومی بدون نیاز به پیکربندی دستی مقیاسپذیر شود.
در کنار آن، Conductor قرار دارد که با یادگیری تقویتی (Reinforcement Learning) آموزش دیده است. Conductor استراتژیهای هماهنگی را به زبان طبیعی کشف میکند و الگوهای ارتباطی و پرامپتهای (Prompts) دقیقی را طراحی میکند که به استخری از LLMهای متنوع اجازه میدهد در محکهای استدلالی دشوار، از هر تککارگری پیشی بگیرند.
سطوح مدل و دسترسی به API
Sakana این سیستم را در دو نسخه متمایز ارائه داده است تا تعادل بین سرعت و دقت برقرار شود:
- Fugu: برای تأخیر (Latency) پایین و کارهای روزمره بهینه شده است. این نسخه به عنوان یک پیشفرض ایدهآل برای چتباتهای تعاملی یا ابزارهای بررسی کد مثل Codex عمل میکند. Fugu تعادلی بین عملکرد قوی و تأخیر کم برای سرویسهای پاسخده سریع ایجاد میکند. کاربران میتوانند برای رعایت محدودیتهای داده، حریم خصوصی و انطباق قانونی (Compliance)، از طریق منوی تنظیمات کنسول، برخی عاملهای خاص را از استخر Fugu حذف کنند.
- Fugu Ultra: برای مسائل حساس و بحرانی (High-stakes) که کیفیت در آنها حیاتی است، طراحی شده است. این مدل یک استخر عمیقتر از عاملهای متخصص را هماهنگ میکند تا کیفیت پاسخ در مسائل دشوار به حداکثر برسد، هرچند زمان پاسخدهی آن بیشتر است. کاربران اولیه از Ultra برای مسابقات Kaggle، بازتولید مقالات علمی، تحلیلهای امنیت سایبری و تحقیقات ادبی یا بررسی پتنتها استفاده میکنند.
هر دو مدل از طریق یک نقطه اتصال (Endpoint) واحد در دسترس هستند. از آنجایی که Fugu Ultra برای رسیدن به پیک عملکرد به کل استخر عاملهای خود متکی است، استخر آن ثابت است. با این حال، مدل استاندارد Fugu به کاربران اجازه میدهد تا ارائهدهندگان یا مدلهای خاصی را از طریق منوی تنظیمات کنسول برای تطبیق با نیازهای حریم خصوصی و دادهها حذف کنند.
بنچمارکهای عملکردی
در آزمایشهای سختگیرانه، مدلهای Fugu اکنون شانه به شانه سیستمهای تراز اولی مثل Fable 5 و Mythos Preview هستند. این مدلها قابلیتهای Frontier را بدون ریسک کنترلهای صادراتی (Export Controls) ارائه میدهند. لازم به ذکر است که نه Fable 5 و نه Mythos Preview در استخر عاملهای Fugu نیستند، زیرا به صورت عمومی در دسترس نیستند. در محک SWE Bench Pro (با استفاده از mini-swe-agent به عنوان داربست)، Fugu Ultra امتیاز ۷۳.۷ را کسب کرد که بهطور قابلتوجهی بالاتر از Gemini 3.1 Pro (۵۴.۲) و GPT 5.5 (۵۸.۶) است.
سایر نتایج کلیدی این شکاف را نشان میدهند:
- کدنویسی و استدلال: در TerminalBench 2.1، مدل Fugu Ultra به امتیاز ۸۲.۱ رسید و GPT 5.5 (۷۸.۲) را شکست داد. در LiveCodeBench، امتیاز Fugu Ultra برابر ۹۳.۲ بود، در حالی که GPT 5.5 امتیاز ۸۵.۳ گرفت. در LiveCodeBench Pro نیز Fugu Ultra با ۹۰.۸ در برابر ۸۸.۴ برای GPT 5.5 قرار گرفت.
- علمی و دانشگاهی: در آزمون Humanity’s Last Exam، امتیاز Fugu Ultra برابر ۵۰.۰ بود، در حالی که GPT 5.5 امتیاز ۴۱.۴ گرفت. در CharXiv Reasoning امتیاز Fugu Ultra برابر ۸۶.۶ ثبت شد و در GPQA-D هر دو سطح Fugu به ۹۵.۵ رسیدند و Opus 4.8 (۹۲.۰) را پشت سر گذاشتند.
- منطق فنی: در SciCode امتیاز ۶۰.۱ ثبت شد. در Long Context Reasoning، مدل Fugu با ۷۴.۷ کمی جلوتر از GPT 5.5 (۷۴.۳) بود. در MRCRv2، مدل Fugu Ultra به ۹۳.۶ رسید، هرچند GPT 5.5 با ۹۴.۸ پیشتاز بود.
- منطق مالی: در محک τ³ Banking، مدل Fugu با امتیاز ۲۱.۷، Gemini 3.1 Pro (۸.۴) را به شدت پشت سر گذاشت.
مطالعات موردی واقعی
برتری Fugu Ultra در پژوهشهای «عاملمحور» و استدلالهای پیچیده فیزیکی مشهود است. در یک آزمایش AutoResearch با استفاده از یک GPU H100 در ۱۴ ساعت، این عامل ۱۲۳ آزمایش را اجرا کرد. Fugu Ultra با کسب بهترین مقدار میانگین بیت-بر-بایت (BPB) یعنی ۰.۹۷۷۴ ± ۰.۰۰۱۹، در بهبود خودکار دستورالعمل آموزش GPT از سه مدل پیشرو دیگر (مدل A: ۰.۹۸۲۲، مدل B: ۰.۹۷۹۳، مدل C: ۰.۹۷۸۱) بهتر عمل کرد. بهترین اجرای تکمرحلهای آن به ۰.۹۷۴۸ رسید. این عامل بهطور مستقل بهبودهایی را در اندازه دسته (Batch size)، عمق مدل، نرخهای یادگیری (Learning rates) و تنظیمات بهینهساز (Optimizer) پیدا کرد.
در مطالعهای روی نامههای قدیمی ژاپنی (Kashira-shōkyū)، Fugu Ultra توانست چیدمان «پراکنده-نویسی» (Chirashigaki) یک نامه سال ۱۶۱۰ نوشته شده توسط Hōshun'in (۱۵۴۷–۱۶۱۷) را تحلیل کند. Fugu Ultra به امتیاز فاصله ویرایشی نرمال شده (NED) ۰.۸۰ رسید. در مقابل، مدلهای A و B تنها به ۰.۲۴ رسیدند و مدل C اصلاً نتوانست پیشبینیکننده تولید کند. این نشاندهنده توانایی بسیار برتر در تبدیل باکسهای محصورکننده (Bounding boxes) و قوانین ترتیب خواندن به کدهای دقیق بود. نامه مورد استفاده در این مطالعه در موسسه کلاسیکهای شرقی کیئو (Keio Institute of Oriental Classics) نگهداری میشود.
در تستهای تولید حلکننده مکعب روبیک با پایتون خالص، Fugu Ultra تمام ۳۰۰ مکعب تست را با میانگین ۱۹.۷۲ حرکت حل کرد. در یک مورد خاص (مکعب شماره ۱۷)، Fugu Ultra معمای را در ۱۹ حرکت حل کرد، در حالی که مدل A به ۲۱ حرکت نیاز داشت. در میان تمام ۳۰۰ مکعب، Fugu Ultra هرگز حرکتی طولانیتر از مدل A نداشت (۷ پیروزی، ۲۹۳ تساوی، ۰ شکست). دو مدل پیشرو دیگر کاملاً شکست خوردند و کدهایی تولید کردند که هنگام اجرا کرش میکردند (۰ از ۳۰۰).
در مهندسی مکانیک نیز، Fugu Ultra موفق به تولید فایل CAD برای یک دیافراگم مکانیکی (Mechanical Iris) شد. در حالی که مدلهای دیگر طرحهایی با شکاف، اتصالات ضعیف یا دهانههایی تولید کردند که بسته نمیشدند، طراحی Fugu Ultra دارای تیغههایی بود که بهطور دقیق حول پینهای خارجی میچرخیدند تا سوراخ مرکزی را باز و بسته کنند.
موفقیت در حوزههای تخصصی
فراتر از کدنویسی، این سیستم توانایی حفظ حافظه و منطق سطح بالا را در بازیهای شطرنج کور (Blindfold Chess) نشان داد. Fugu چهار بازی متوالی را بدون دیدن صفحه و با حفظ وضعیت کامل در حافظه پیش برد. این مدل توانست سه مدل پیشرو و حتی موتور Stockfish با ریتینگ ۲۱۰۰ را شکست دهد و در جایی که حریفان دچار خطا در وضعیت صفحه میشدند، دقت خود را حفظ کرده و هر بازی را با کیش و مات به پایان رساند.
در یک شبیهسازی معاملات سهام ۵۰ هفتهای با استفاده از دادههای ناشناس STOCK_X، مدل Fugu Ultra تصمیمات آنلاین خود را بر اساس دادههای هفتگی بازار، شامل قیمتهای باز و بسته شدن، حجم، نوسانات (Volatility) و وضعیت سبد دارایی اتخاذ کرد. این بنچمارکها تصمیمگیریهای متوالی و بدون نگاه به آینده (No-look-ahead) را مقایسه میکنند. با سرمایه اولیه ۱۰,۰۰۰ دلار، Fugu Ultra سبد دارایی را به ۱۱,۹۴۳.۲۲ ± ۶۳۳.۸۶ دلار رساند که بازدهی میانگین ۱۹.۴۳٪ بود. تمام مدلهای پیشرو دیگر در ۵ اجرای یکسان از این خط لوله، بازدهی کمتر از ۱۵٪ داشتند.
گواهی کاربران و اثرات عملی
پذیرندگان اولیه در نقشهای مختلف، پیشرفتهای چشمگیری در کیفیت و خودمختاری گزارش کردهاند:
- مهندسی نرمافوار: یک مهندس اشاره کرد که Fugu Ultra برای بررسی کد «بهمراتب بهتر از GPT-5.5» است و در جایی که سایر ابزارها تنها ۳ باگ را شناسایی کردند، او بیش از ۲۰ باگ را کشف کرد.
- پژوهش صنعتی: پژوهشگری توانست نقشه جامع پتنتها را در میان حدود ۲۰ مقاله و چندین پتنت در عرض چند ساعت ترسیم کند؛ کاری که پیشتر ۳ تا ۴ روز زمان میبرد و ارتباطاتی بین مقالات یافت شد که او به تنهایی متوجه آنها نمیشد.
- پلتفرم سازمانی: یک مدیر اجرایی بر «ثبات شخصیتی» (Persona Stability) غیرعادی Fugu در جلسات طولانی تأکید کرد که از تغییر هویت (Identity Drift) رایج در سایر مدلها جلوگیری میکند.
- بازتولید علمی: پژوهشگری از Fugu برای خواندن، پیادهسازی، آموزش و ارزیابی یک مقاله در عرض ۴ ساعت استفاده کرد. در یک تسک خاص CUDA، این مدل در یک جلسه واحد منجر به افزایش سرعت بیش از ۱۰۰ برابر شد.
- تحلیل امنیت: یک مهندس امنیت با یک دستور واحد برای ارزیابی سرتاسری (End-to-end) شامل شناسایی (Recon)، بررسیهای XSS/SQLi و بازبینی احراز هویت استفاده کرد. Fugu گزارشی تمیز همراه با شواهد و مراحل تست مجدد تولید کرد، در حالی که بهطور سختگیرانه از هرگونه اقدام تخریبی پرهیز کرد.
پذیرش سازمانی و قیمتگذاری
Sakana Fugu از طریق API سازگار با OpenAI در دسترس است و نیازی به مهاجرت SDK ندارد. مدلهای جدید سریعاً ادغام میشوند؛ تیم Sakana پیشبینی میکند حدود دو هفته پس از انتشار یک مدل عمومی، بهروزرسانیها را آموزش و ارزیابی کند.
طرحهای اشتراکی (شامل هر دو نسخه Fugu و Fugu Ultra):
- Standard (۲۰ دلار/ماه): برای استفادههای سبک روزانه و آزمایشهای کوچک. سهمیه پایه ارائه میشود.
- Pro (۱۰۰ دلار/ماه): ۱۰ برابر استفاده استاندارد، طراحی شده برای جلسات منظم کدنویسی و تحلیل.
- Max (۲۰۰ دلار/ماه): ۲۰ برابر استفاده استاندارد، برای کاربران حرفهای با حجم کاری عمیق و طولانی.
- پروموشن: اشتراکهایی که پیش از پایان جولای ۲۰۲۶ فعال شوند، ماه دوم را در سطح tier اولیه خود بهطور رایگان دریافت میکنند.
پرداخت به میزان مصرف (Enterprise):
- توکنهای مبتنی بر مصرف، اولویت بالاتری نسبت به توکنهای طرحهای ماهانه دارند.
- Fugu: هزینه بر اساس نرخ استاندارد مدل پایه است. وقتی چندین عامل فعال باشند، هزینهها روی هم جمع نمیشوند (Stacked نمیشوند)؛ کاربر تنها نرخ گرانترین مدل موجود در استخر را میپردازد. مثلاً اگر فقط مدل A استفاده شود، نرخ مدل A است؛ اما اگر مدلهای A، B و C همزمان استفاده شوند، فقط نرخ بالاترین سطح میان آنها اعمال میشود.
- Fugu Ultra (fugu-ultra-20260615):
- ورودی: ۵ دلار به ازای یک میلیون توکن (۱۰ دلار اگر Context بیش از ۲۷۲ هزار توکن باشد)
- خروجی: ۳۰ دلار به ازای یک میلیون توکن (۴۵ دلار اگر Context بیش از ۲۷۲ هزار توکن باشد)
- ورودی کششده (Cached Input): ۰.۵۰ دلار به ازای یک میلیون توکن (۱.۰۰ دلار اگر Context بیش از ۲۷۲ هزار توکن باشد)
کاربران میتوانند هزینهها را بهصورت لحظهای از طریق گزارشهای هر-درخواست (Per-request reporting) نظارت کنند. اگرچه دادههای استفاده به بهبود عملکرد کمک میکند، اما کاربران میتوانند در هر زمان از طریق کنسول، گزینه استفاده از دادهها برای آموزش را غیرفعال کنند. برای محافظت از فناوری اختصاصی، منطق دقیق مسیریابی و انتخاب مدل — یعنی اینکه کدام مدلها انتخاب میشوند و چگونه هماهنگ میشوند — افشا نمیشود.
این چرخش به سمت «سامانه چند-عاملی بهعنوان یک مدل» نشان میدهد که مرز بعدی هوش مصنوعی لزوماً یک شبکه عصبی واحد و بزرگتر نیست، بلکه هوشمندی مورد نیاز برای مدیریت جمعیتی از متخصصان است. با تبدیل ارکستراتور به محصول اصلی، Sakana AI عملکرد سطح بالا را از وابستگی به یک فروشنده مدل واحد جدا کرده است.
کاربران میتوانند از همین امروز با استفاده از کلاینتهای سازگار با OpenAI، Fugu را ادغام کنند. تنها محدودیت فعلی جغرافیایی است: این سرویس در اتحادیه اروپا (EU) یا کشورهای عضو EEA در دسترس نیست، زیرا شرکت در حال تلاش برای انطباق با GDPR و مقررات خاص اتحادیه اروپا است. در سایر مناطق، دسترسی ممکن است توسط مقررات محلی یا شرایط شبکه محدود شود.
گام بعدی شما
- اگر از APIهای OpenAI استفاده میکنید، Fugu را برای تکالیف کدنویسی پیچیده که نیاز به دقت بالا دارند جایگزین کنید.
- برای کاهش هزینهها در کارهای روزمره، از نسخه Standard و برای تحلیلهای عمیق پژوهشی از Fugu Ultra استفاده کنید.
- تنظیمات کنسول را بررسی کنید تا مدلهای خاصی که با سیاستهای حریم خصوصی سازمان شما ناسازگارند را حذف کنید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما درباره تراشههای Blackwell مراجعه کنید.




گفتگو