Sakana Fugu: ارکستراسیون چند-عاملی با عملکرد مدل‌های پیشرو

تصور کنید به جای تقابل با یک مدل غول‌پیکر، با ارکستری از متخصصان طرف باشید که هر لحظه باهوش‌ترین عضو تیم برای پاسخ به سوال شما انتخاب می‌شود. این دقیقاً همان روشی است که Sakana Fugu برای رسیدن به عملکرد مدل‌های سطح اول (Frontier) به کار می‌گیرد. سیستمی را در نظر بگیرید که در آن نیاز به طراحی دستی گردش‌های کاری توسط انسان کاملاً حذف شده است؛ چرا که یک معماری چند-عاملی (Multi-Agent architecture) به عنوان یک مدل واحد در نظر گرفته می‌شود.

این سامانه از طریق یک API سازگار با OpenAI، مدل‌های برتر جهان را به‌طور پویا سازمان‌دهی می‌کند و مدیریت انتخاب و جابجایی بین مدل‌ها را به‌طور خودکار بر عهده می‌گیرد. از طریق این رویکرد، Sakana AI کاربران را قادر می‌سازد تا تکالیف چندمرحله‌ای را با عملکرد سطح Frontier انجام دهند، در حالی که وابستگی به یک فروشنده واحد (Single-vendor dependency) را از بین می‌برند.

اکثر توسعه‌دهندگان فعلی، گردش‌های کاری عامل‌محور (Agentic Workflow) — شبیه به تعریف دقیق شرح وظایف برای هر کارمند در یک شرکت — را با تعیین دستی نقش‌ها می‌سازند؛ مثلاً یک مدل می‌نویسد و مدل دیگر بررسی می‌کند. این روش سخت‌گیرانه است و اغلب به شهود انسانی درباره نحوه تقسیم یک تکلیف تکیه دارد. اما Sakana Fugu به عنوان یک تغییر پارادایم (Paradigm Shift) وارد میدان شده است. این سیستم طراحی دستی را با یک سامانه ارکستراسیون یادگیرنده جایگزین می‌کند که الگوهای همکاری غیربدیهی و بسیار بهینه را به‌طور خودکار کشف می‌کند. به جای استفاده از دانش دامنه برای تجویز سازماندهی تیم، نقش‌ها یا گردش‌های کاری، Fugu یاد می‌گیرد که عامل‌ها را به‌طور پویا از یک استخر (Pool) فعال جمع‌آوری کند.

بر اساس گزارش رسمی منتشر شده در ۲۲ ژوئن ۲۰۲۶، این سامانه بر پایه دو مقاله پژوهشی ICLR ۲۰۲۶ یعنی TRINITY و Conductor بنا شده است. این مبانی پژوهشی سامانه را قادر می‌سازند تا عامل‌های متخصص را بر اساس الزامات خاص هر تکلیف مسیریابی (Route) و متصل کند، به جای اینکه از یک اسکریپت ایستا پیروی کند.

مکانیسم ارکستراسیون

بخش TRINITY یک هماهنگ‌کننده تکامل‌یافته و سبک (Lightweight evolved coordinator) را معرفی می‌کند. این جزء، چندین مدل زبانی بزرگ (LLM) — شبیه به کتابخانه‌داری که میلیاردها صفحه را خوانده و حالا با همان لحن جواب می‌دهد — را در چندین نوبت مدیریت کرده و نقش‌هایی مثل «متفکر» (Thinker)، «کارگر» (Worker) یا «تأییدکننده» (Verifier) را به‌طور تطبیقی تخصیص می‌دهد. این انعطاف‌پذیری به سیستم اجازه می‌دهد تا در تکالیف کدنویسی، ریاضیات و دانش عمومی بدون نیاز به پیکربندی دستی مقیاس‌پذیر شود.

در کنار آن، Conductor قرار دارد که با یادگیری تقویتی (Reinforcement Learning) آموزش دیده است. Conductor استراتژی‌های هماهنگی را به زبان طبیعی کشف می‌کند و الگوهای ارتباطی و پرامپت‌های (Prompts) دقیقی را طراحی می‌کند که به استخری از LLMهای متنوع اجازه می‌دهد در محک‌های استدلالی دشوار، از هر تک‌کارگری پیشی بگیرند.

سطوح مدل و دسترسی به API

Sakana این سیستم را در دو نسخه متمایز ارائه داده است تا تعادل بین سرعت و دقت برقرار شود:

Fugu: برای تأخیر (Latency) پایین و کارهای روزمره بهینه شده است. این نسخه به عنوان یک پیش‌فرض ایده‌آل برای چت‌بات‌های تعاملی یا ابزارهای بررسی کد مثل Codex عمل می‌کند. Fugu تعادلی بین عملکرد قوی و تأخیر کم برای سرویس‌های پاسخ‌ده سریع ایجاد می‌کند. کاربران می‌توانند برای رعایت محدودیت‌های داده، حریم خصوصی و انطباق قانونی (Compliance)، از طریق منوی تنظیمات کنسول، برخی عامل‌های خاص را از استخر Fugu حذف کنند.
Fugu Ultra: برای مسائل حساس و بحرانی (High-stakes) که کیفیت در آن‌ها حیاتی است، طراحی شده است. این مدل یک استخر عمیق‌تر از عامل‌های متخصص را هماهنگ می‌کند تا کیفیت پاسخ در مسائل دشوار به حداکثر برسد، هرچند زمان پاسخ‌دهی آن بیشتر است. کاربران اولیه از Ultra برای مسابقات Kaggle، بازتولید مقالات علمی، تحلیل‌های امنیت سایبری و تحقیقات ادبی یا بررسی پتنت‌ها استفاده می‌کنند.

هر دو مدل از طریق یک نقطه اتصال (Endpoint) واحد در دسترس هستند. از آنجایی که Fugu Ultra برای رسیدن به پیک عملکرد به کل استخر عامل‌های خود متکی است، استخر آن ثابت است. با این حال، مدل استاندارد Fugu به کاربران اجازه می‌دهد تا ارائه‌دهندگان یا مدل‌های خاصی را از طریق منوی تنظیمات کنسول برای تطبیق با نیازهای حریم خصوصی و داده‌ها حذف کنند.

بنچمارک‌های عملکردی

در آزمایش‌های سخت‌گیرانه، مدل‌های Fugu اکنون شانه به شانه سیستم‌های تراز اولی مثل Fable 5 و Mythos Preview هستند. این مدل‌ها قابلیت‌های Frontier را بدون ریسک کنترل‌های صادراتی (Export Controls) ارائه می‌دهند. لازم به ذکر است که نه Fable 5 و نه Mythos Preview در استخر عامل‌های Fugu نیستند، زیرا به صورت عمومی در دسترس نیستند. در محک SWE Bench Pro (با استفاده از mini-swe-agent به عنوان داربست)، Fugu Ultra امتیاز ۷۳.۷ را کسب کرد که به‌طور قابل‌توجهی بالاتر از Gemini 3.1 Pro (۵۴.۲) و GPT 5.5 (۵۸.۶) است.

سایر نتایج کلیدی این شکاف را نشان می‌دهند:

کدنویسی و استدلال: در TerminalBench 2.1، مدل Fugu Ultra به امتیاز ۸۲.۱ رسید و GPT 5.5 (۷۸.۲) را شکست داد. در LiveCodeBench، امتیاز Fugu Ultra برابر ۹۳.۲ بود، در حالی که GPT 5.5 امتیاز ۸۵.۳ گرفت. در LiveCodeBench Pro نیز Fugu Ultra با ۹۰.۸ در برابر ۸۸.۴ برای GPT 5.5 قرار گرفت.
علمی و دانشگاهی: در آزمون Humanity’s Last Exam، امتیاز Fugu Ultra برابر ۵۰.۰ بود، در حالی که GPT 5.5 امتیاز ۴۱.۴ گرفت. در CharXiv Reasoning امتیاز Fugu Ultra برابر ۸۶.۶ ثبت شد و در GPQA-D هر دو سطح Fugu به ۹۵.۵ رسیدند و Opus 4.8 (۹۲.۰) را پشت سر گذاشتند.
منطق فنی: در SciCode امتیاز ۶۰.۱ ثبت شد. در Long Context Reasoning، مدل Fugu با ۷۴.۷ کمی جلوتر از GPT 5.5 (۷۴.۳) بود. در MRCRv2، مدل Fugu Ultra به ۹۳.۶ رسید، هرچند GPT 5.5 با ۹۴.۸ پیشتاز بود.
منطق مالی: در محک τ³ Banking، مدل Fugu با امتیاز ۲۱.۷، Gemini 3.1 Pro (۸.۴) را به شدت پشت سر گذاشت.

مطالعات موردی واقعی

برتری Fugu Ultra در پژوهش‌های «عامل‌محور» و استدلال‌های پیچیده فیزیکی مشهود است. در یک آزمایش AutoResearch با استفاده از یک GPU H100 در ۱۴ ساعت، این عامل ۱۲۳ آزمایش را اجرا کرد. Fugu Ultra با کسب بهترین مقدار میانگین بیت-بر-بایت (BPB) یعنی ۰.۹۷۷۴ ± ۰.۰۰۱۹، در بهبود خودکار دستورالعمل آموزش GPT از سه مدل پیشرو دیگر (مدل A: ۰.۹۸۲۲، مدل B: ۰.۹۷۹۳، مدل C: ۰.۹۷۸۱) بهتر عمل کرد. بهترین اجرای تک‌مرحله‌ای آن به ۰.۹۷۴۸ رسید. این عامل به‌طور مستقل بهبودهایی را در اندازه دسته (Batch size)، عمق مدل، نرخ‌های یادگیری (Learning rates) و تنظیمات بهینه‌ساز (Optimizer) پیدا کرد.

در مطالعه‌ای روی نامه‌های قدیمی ژاپنی (Kashira-shōkyū)، Fugu Ultra توانست چیدمان «پراکنده-نویسی» (Chirashigaki) یک نامه سال ۱۶۱۰ نوشته شده توسط Hōshun'in (۱۵۴۷–۱۶۱۷) را تحلیل کند. Fugu Ultra به امتیاز فاصله ویرایشی نرمال شده (NED) ۰.۸۰ رسید. در مقابل، مدل‌های A و B تنها به ۰.۲۴ رسیدند و مدل C اصلاً نتوانست پیش‌بینی‌کننده تولید کند. این نشان‌دهنده توانایی بسیار برتر در تبدیل باکس‌های محصورکننده (Bounding boxes) و قوانین ترتیب خواندن به کدهای دقیق بود. نامه مورد استفاده در این مطالعه در موسسه کلاسیک‌های شرقی کیئو (Keio Institute of Oriental Classics) نگهداری می‌شود.

در تست‌های تولید حل‌کننده مکعب روبیک با پایتون خالص، Fugu Ultra تمام ۳۰۰ مکعب تست را با میانگین ۱۹.۷۲ حرکت حل کرد. در یک مورد خاص (مکعب شماره ۱۷)، Fugu Ultra معمای را در ۱۹ حرکت حل کرد، در حالی که مدل A به ۲۱ حرکت نیاز داشت. در میان تمام ۳۰۰ مکعب، Fugu Ultra هرگز حرکتی طولانی‌تر از مدل A نداشت (۷ پیروزی، ۲۹۳ تساوی، ۰ شکست). دو مدل پیشرو دیگر کاملاً شکست خوردند و کدهایی تولید کردند که هنگام اجرا کرش می‌کردند (۰ از ۳۰۰).

در مهندسی مکانیک نیز، Fugu Ultra موفق به تولید فایل CAD برای یک دیافراگم مکانیکی (Mechanical Iris) شد. در حالی که مدل‌های دیگر طرح‌هایی با شکاف، اتصالات ضعیف یا دهانه‌هایی تولید کردند که بسته نمی‌شدند، طراحی Fugu Ultra دارای تیغه‌هایی بود که به‌طور دقیق حول پین‌های خارجی می‌چرخیدند تا سوراخ مرکزی را باز و بسته کنند.

موفقیت در حوزه‌های تخصصی

فراتر از کدنویسی، این سیستم توانایی حفظ حافظه و منطق سطح بالا را در بازی‌های شطرنج کور (Blindfold Chess) نشان داد. Fugu چهار بازی متوالی را بدون دیدن صفحه و با حفظ وضعیت کامل در حافظه پیش برد. این مدل توانست سه مدل پیشرو و حتی موتور Stockfish با ریتینگ ۲۱۰۰ را شکست دهد و در جایی که حریفان دچار خطا در وضعیت صفحه می‌شدند، دقت خود را حفظ کرده و هر بازی را با کیش و مات به پایان رساند.

در یک شبیه‌سازی معاملات سهام ۵۰ هفته‌ای با استفاده از داده‌های ناشناس STOCK_X، مدل Fugu Ultra تصمیمات آنلاین خود را بر اساس داده‌های هفتگی بازار، شامل قیمت‌های باز و بسته شدن، حجم، نوسانات (Volatility) و وضعیت سبد دارایی اتخاذ کرد. این بنچمارک‌ها تصمیم‌گیری‌های متوالی و بدون نگاه به آینده (No-look-ahead) را مقایسه می‌کنند. با سرمایه اولیه ۱۰,۰۰۰ دلار، Fugu Ultra سبد دارایی را به ۱۱,۹۴۳.۲۲ ± ۶۳۳.۸۶ دلار رساند که بازدهی میانگین ۱۹.۴۳٪ بود. تمام مدل‌های پیشرو دیگر در ۵ اجرای یکسان از این خط لوله، بازدهی کمتر از ۱۵٪ داشتند.

گواهی کاربران و اثرات عملی

پذیرندگان اولیه در نقش‌های مختلف، پیشرفت‌های چشمگیری در کیفیت و خودمختاری گزارش کرده‌اند:

مهندسی نرم‌افوار: یک مهندس اشاره کرد که Fugu Ultra برای بررسی کد «به‌مراتب بهتر از GPT-5.5» است و در جایی که سایر ابزارها تنها ۳ باگ را شناسایی کردند، او بیش از ۲۰ باگ را کشف کرد.
پژوهش صنعتی: پژوهشگری توانست نقشه جامع پتنت‌ها را در میان حدود ۲۰ مقاله و چندین پتنت در عرض چند ساعت ترسیم کند؛ کاری که پیش‌تر ۳ تا ۴ روز زمان می‌برد و ارتباطاتی بین مقالات یافت شد که او به تنهایی متوجه آن‌ها نمی‌شد.
پلتفرم سازمانی: یک مدیر اجرایی بر «ثبات شخصیتی» (Persona Stability) غیرعادی Fugu در جلسات طولانی تأکید کرد که از تغییر هویت (Identity Drift) رایج در سایر مدل‌ها جلوگیری می‌کند.
بازتولید علمی: پژوهشگری از Fugu برای خواندن، پیاده‌سازی، آموزش و ارزیابی یک مقاله در عرض ۴ ساعت استفاده کرد. در یک تسک خاص CUDA، این مدل در یک جلسه واحد منجر به افزایش سرعت بیش از ۱۰۰ برابر شد.
تحلیل امنیت: یک مهندس امنیت با یک دستور واحد برای ارزیابی سرتاسری (End-to-end) شامل شناسایی (Recon)، بررسی‌های XSS/SQLi و بازبینی احراز هویت استفاده کرد. Fugu گزارشی تمیز همراه با شواهد و مراحل تست مجدد تولید کرد، در حالی که به‌طور سخت‌گیرانه از هرگونه اقدام تخریبی پرهیز کرد.

پذیرش سازمانی و قیمت‌گذاری

Sakana Fugu از طریق API سازگار با OpenAI در دسترس است و نیازی به مهاجرت SDK ندارد. مدل‌های جدید سریعاً ادغام می‌شوند؛ تیم Sakana پیش‌بینی می‌کند حدود دو هفته پس از انتشار یک مدل عمومی، به‌روزرسانی‌ها را آموزش و ارزیابی کند.

طرح‌های اشتراکی (شامل هر دو نسخه Fugu و Fugu Ultra):

Standard (۲۰ دلار/ماه): برای استفاده‌های سبک روزانه و آزمایش‌های کوچک. سهمیه پایه ارائه می‌شود.
Pro (۱۰۰ دلار/ماه): ۱۰ برابر استفاده استاندارد، طراحی شده برای جلسات منظم کدنویسی و تحلیل.
Max (۲۰۰ دلار/ماه): ۲۰ برابر استفاده استاندارد، برای کاربران حرفه‌ای با حجم کاری عمیق و طولانی.
پروموشن: اشتراک‌هایی که پیش از پایان جولای ۲۰۲۶ فعال شوند، ماه دوم را در سطح tier اولیه خود به‌طور رایگان دریافت می‌کنند.

پرداخت به میزان مصرف (Enterprise):

توکن‌های مبتنی بر مصرف، اولویت بالاتری نسبت به توکن‌های طرح‌های ماهانه دارند.
Fugu: هزینه بر اساس نرخ استاندارد مدل پایه است. وقتی چندین عامل فعال باشند، هزینه‌ها روی هم جمع نمی‌شوند (Stacked نمی‌شوند)؛ کاربر تنها نرخ گران‌ترین مدل موجود در استخر را می‌پردازد. مثلاً اگر فقط مدل A استفاده شود، نرخ مدل A است؛ اما اگر مدل‌های A، B و C همزمان استفاده شوند، فقط نرخ بالاترین سطح میان آن‌ها اعمال می‌شود.
Fugu Ultra (fugu-ultra-20260615):
- ورودی: ۵ دلار به ازای یک میلیون توکن (۱۰ دلار اگر Context بیش از ۲۷۲ هزار توکن باشد)
- خروجی: ۳۰ دلار به ازای یک میلیون توکن (۴۵ دلار اگر Context بیش از ۲۷۲ هزار توکن باشد)
- ورودی کش‌شده (Cached Input): ۰.۵۰ دلار به ازای یک میلیون توکن (۱.۰۰ دلار اگر Context بیش از ۲۷۲ هزار توکن باشد)

کاربران می‌توانند هزینه‌ها را به‌صورت لحظه‌ای از طریق گزارش‌های هر-درخواست (Per-request reporting) نظارت کنند. اگرچه داده‌های استفاده به بهبود عملکرد کمک می‌کند، اما کاربران می‌توانند در هر زمان از طریق کنسول، گزینه استفاده از داده‌ها برای آموزش را غیرفعال کنند. برای محافظت از فناوری اختصاصی، منطق دقیق مسیریابی و انتخاب مدل — یعنی اینکه کدام مدل‌ها انتخاب می‌شوند و چگونه هماهنگ می‌شوند — افشا نمی‌شود.

این چرخش به سمت «سامانه چند-عاملی به‌عنوان یک مدل» نشان می‌دهد که مرز بعدی هوش مصنوعی لزوماً یک شبکه عصبی واحد و بزرگ‌تر نیست، بلکه هوشمندی مورد نیاز برای مدیریت جمعیتی از متخصصان است. با تبدیل ارکستراتور به محصول اصلی، Sakana AI عملکرد سطح بالا را از وابستگی به یک فروشنده مدل واحد جدا کرده است.

کاربران می‌توانند از همین امروز با استفاده از کلاینت‌های سازگار با OpenAI، Fugu را ادغام کنند. تنها محدودیت فعلی جغرافیایی است: این سرویس در اتحادیه اروپا (EU) یا کشورهای عضو EEA در دسترس نیست، زیرا شرکت در حال تلاش برای انطباق با GDPR و مقررات خاص اتحادیه اروپا است. در سایر مناطق، دسترسی ممکن است توسط مقررات محلی یا شرایط شبکه محدود شود.

گام بعدی شما

اگر از APIهای OpenAI استفاده می‌کنید، Fugu را برای تکالیف کدنویسی پیچیده که نیاز به دقت بالا دارند جایگزین کنید.
برای کاهش هزینه‌ها در کارهای روزمره، از نسخه Standard و برای تحلیل‌های عمیق پژوهشی از Fugu Ultra استفاده کنید.
تنظیمات کنسول را بررسی کنید تا مدل‌های خاصی که با سیاست‌های حریم خصوصی سازمان شما ناسازگارند را حذف کنید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.