عصر انتخاب یک مدل «بهترین» برای تمام کارها به پایان رسیده است. Sakana AI با معرفی Sakana Fugu، قواعد بازی را تغییر داد؛ سیستمی که در ظاهر یک مدل واحد است، اما در باطن مجموعهای از مدلهای زبانی پیشرو (Frontier LLMs) را برای حل مسائل مدیریت میکند و آنها را به صورت یک استخر قابل تعویض سازماندهی میکند.
این رویکرد، بار انتخاب مدل را از دوش برنامهنویس و کدهای او برداشته و به یک لایه سازماندهنده (Orchestration) آموختهشده میسپارد. بهجای کدنویسی سخت (Hard-coding) برای جریانهای کاری، Fugu مانند یک هماهنگکننده عمل میکند که تصمیم میگیرد چه زمانی کار را تفویض کند، عاملها چگونه با هم ارتباط برقرار کنند و پاسخ نهایی چگونه ترکیب و سنتز شود. در واقع، کاربر از بیرون تنها یک مدل را فراخوانی میکند، اما در پشت صحنه، تیمی از متخصصان سازمانیافته در حال انجام کار هستند.
همانطور که در تحلیل قبلی ما دربارهی امنیت مدلهای پیشرو و ریسک تزریق پرامپت (Prompt Injection) اشاره کردیم، تداخل نقشها میتواند منجر به ناپایداری شود. معماری Fugu با رسمیکردن این نقشها، سعی میکند بیثباتی موجود در جریانهای کاری تکمدلی را کاهش دهد. این سیستم با تخصیص نقشهای مشخصی نظیر «متفکر» (Thinker)، «کارگر» (Worker) و «تصحیحکننده» (Verifier)، ساختار عملیاتی را تثبیت میکند.
سازوکار سازماندهی آموختهشده
طبق اعلام این شرکت، Fugu که در ۲۲ ژوئن ۲۰۲۶ عرضه شد، یک مسیریاب (Router) ساده نیست، بلکه یک مدل زبانی است که بهطور ویژه برای فراخوانی سایر مدلهای زبانی بزرگ آموزش دیده است. این سامانه چندعاملی (Multi-agent system) بهگونهای رفتار میکند که گویی یک مدل واحد است. کاربران درخواست خود را به یک نقطه پایانی (Endpoint) واحد ارسال میکنند و Fugu تصمیم میگیرد چگونه آن را درونیزه کند. اگر مسئله ساده باشد، مدل مستقیماً آن را حل میکند و اگر پیچیده باشد، تیمی از مدلهای خبره را سازماندهی و هماهنگ میکند.
این سیستم بر پایه دو مقاله علمی از کنفرانس ICLR ۲۰۲۶ یعنی Trinity و Conductor بنا شده است:
- Trinity: از یک هماهنگکننده تکاملیافته و سبک استفاده میکند تا نقشها را در چندین نوبت (Turn) بهطور سازگارانه تخصیص دهد و وظایف را به نقشهای متفکر، کارگر یا تصحیحکننده تفویض کند.
- Conductor: با بهرهگیری از یادگیری تقویتی (Reinforcement Learning)، استراتژیهای هماهنگی به زبان طبیعی و پرامپتهای بهینه را برای مجموعههای متنوع مدلها کشف میکند.
این معماری به Fugu اجازه میدهد تا بهصورت بازگشتی (Recursive) نمونههایی از خودش را فراخوانی کند. این قابلیت بازگشتی باعث میشود مدیریت انتخاب مدل، تفویض اختیار، تایید صحت (Verification) و سنتز نهایی همگی در داخل سیستم رخ دهد و پیچیدگیهای یک سامانه چندعاملی کاملاً از دید برنامهنویس پنهان بماند.
تفاوت Fugu و Fugu Ultra
Sakana AI این فناوری را از طریق یک API سازگار با OpenAI ارائه داده است تا کاربران نیازی به مهاجرت SDK و تغییر در زیرساختهای کدنویسی خود نداشته باشند. دو نسخه با اولویتهای متفاوت عرضه شده است:
- Fugu: برای تأخیر (Latency) پایین و کارهای روزمره مثل بررسی کد (Code Review)، چتباتها و ابزارهایی مانند Codex بهینه شده است. یک ویژگی کلیدی در این نسخه این است که کاربران میتوانند برخی عاملهای خاص را از استخر مدلها حذف کنند (Opt-out) تا الزامات سختگیرانه مربوط به دادهها، حریم خصوصی و رعایت قوانین انطباق (Compliance) را برآورده سازند.
- Fugu Ultra: برای دستیابی به حداکثر کیفیت در مسائل سخت و چندمرحلهای طراحی شده است. این نسخه یک استخر عمیقتر و ثابت از عاملهای خبره را هماهنگ میکند. به دلیل ثابت بودن این استخر، ویژگی حذف عامل (Opt-out) در این نسخه در دسترس نیست. شناسه فعلی این مدل
fugu-ultra-20260615است.
عملکرد در محکهای فنی
بر اساس تحلیل فنی Marktechpost، نسخه Fugu Ultra در اکثر بنچمارکهای منتشر شده تسلط دارد و در ۱۰ مورد از ۱۱ ردیف ردیابی شده، رتبه نخست را کسب کرده است. این مدل در چهار بنچمارک کدنویسی پیشتاز است و بالاترین امتیاز را در آزمونهای CharXiv Reasoning و Humanity’s Last Exam به دست آورده است.
دادههای دقیق در محکهای کلیدی عبارتند از:
- SWE Bench Pro (با استفاده از داربست mini-swe-agent): مدل Fugu Ultra با امتیاز ۷۳.۷، مدلهای Opus 4.8 (۶۹.۲)، GPT 5.5 (۵۸.۶) و Gemini 3.1 Pro (۵۴.۲) را شکست داد.
- LiveCodeBench: امتیاز Fugu Ultra برابر با ۹۳.۲ بود، در حالی که GPT 5.5 امتیاز ۸۵.۳ و Gemini 3.1 Pro امتیاز ۸۸.۵ گرفتند.
- LiveCodeBench Pro: مدل Fugu Ultra با امتیاز ۹۰.۸ از GPT 5.5 (۸۸.۴) پیشی گرفت.
- Humanity’s Last Exam: مدل Fugu Ultra با امتیاز ۵۰.۰ در صدر قرار گرفت (Opus 4.8 با ۴۹.۸).
- CharXiv Reasoning: مدل Fugu Ultra با امتیاز ۸۶.۶ رتبه اول شد.
- GPQA-D: هر دو نسخه Fugu و Fugu Ultra با امتیاز ۹۵.۵ مشترکاً در جایگاه نخست قرار گرفتند.
- SciCode, τ³ Banking, and Long Context Reasoning: نسخه معمولی Fugu در این دستهها پیشتاز بود (به عنوان مثال امتیاز ۶۰.۱ در SciCode و ۲۱.۷ در τ³ Banking).
- MRCRv2: این تنها مورد بود که مدلهای پایه پیروز شدند و GPT 5.5 با امتیاز ۹۴.۸ توانست Fugu Ultra (۹۳.۶) را شکست دهد.
در حال حاضر مدلهای Fugu همتراز با Fable 5 و Mythos Preview شرکت Anthropic هستند، هرچند این دو مدل در استخر Fugu قرار ندارند زیرا به صورت عمومی در دسترس نیستند.
کاربردهای دنیای واقعی
در یک نسخه بتای محدود با نزدیک به ۵۰۰ کاربر اولیه، Fugu Ultra قابلیتهایی را به نمایش گذاشت که از مدلهای پیشرو به صورت تکنفره فراتر بود، بهویژه در وظایف طولانی و چندمرحلهای:
- پژوهش خودکار (AutoResearch): یک عامل توانست بهطور خودگردان دستور آموزش یک مدل GPT کوچک را بهبود بخشد. این کار با اجرای ۱۲۳ آزمایش طی تقریباً ۱۴ ساعت روی یک GPU H100 انجام شد. Fugu Ultra به میانگین اعتبارسنجی BPB برابر با ۰.۹۷۷۴ دست یافت و بهترین اجرای تکمرحلهای آن ۰.۹۷۴۸ بود.
- حل مکعب روبیک: در چالشی که نیاز به کدنویسی خالص پایتون (Pure-Python) بدون استفاده از کتابخانه داشت، Fugu Ultra تمام ۳۰۰ مکعب تست را با میانگین ۱۹.۷۲ حرکت حل کرد. در همین حال، دو مدل رقیب دیگر دچار کرش شدند و هیچ مکعبی را حل نکردند.
- خواندن ژاپنی کلاسیک: در یک تست ۱۶۱۰ حرفهای برای ترتیب خواندن کانا (Kana)، مدل Fugu Ultra امتیاز NED ۰.۸۰ کسب کرد، در حالی که نزدیکترین رقیب تنها به ۰.۲۴ رسید.
- شطرنج حافظهای (Blindfold Chess): این مدل چهار بازی را بدون دیدن صفحه و تنها با حافظه پیش برد و سه مدل پیشرو و حتی موتور Stockfish با ردهبندی ۲۱۰۰ Elo را شکست داد.
- معاملات آنلاین: در یک بازه ۵۰ هفتهای، Fugu Ultra بهطور میانگین بازدهی ۱۹.۴۳+ درصد در پنج اجرا داشت، در حالی که سایر مدلهای پیشرو زیر ۱۵+ درصد باقی ماندند.
استراتژی حاکمیت مدل
Sakana AI مدل Fugu را بهعنوان یک پوشش یا «هج» (Hedge) در برابر وابستگی به یک فروشنده واحد معرفی میکند. با اشاره به کنترلهای صادراتی اخیر روی مدلهای Fable و Mythos شرکت Anthropic، این شرکت Fugu را ابزاری برای دور زدن اختلالات احتمالی معرفی کرده است؛ بهطوری که اگر یک تامینکننده دسترسی را محدود کند، سیستم بتواند مسیر را تغییر دهد. از آنجایی که مسیریابی (Routing) اختصاصی است، انتخاب مدل برای هر پرسوجو از دید کاربر پنهان میماند.
با این حال، واکنشهای اولیه جامعه کاربران در X و Hacker News در ۲۲ ژوئن ۲۰۲۶ متناقض و تا حد زیادی تردیدآمیز بود. بررسی ۱۲ پست نشان داد که ۳ مورد حمایت، ۶ مورد تردید و ۳ مورد انتقاد شدید داشتند. منتقدان میپرسند آیا Fugu صرفاً یک «رپِر پیشرفته» (Advanced Wrapper) یا نسخهای تجاریشده از OpenRouter است یا خیر.
نقدها عمدتاً بر سه محور متمرکز است:
- قابلیت مشاهده (Observability): کاربران در Hacker News خواستار شفافیت واقعی در مورد اینکه دقیقاً کدام عاملها در حال اجرا هستند شدند.
- وابستگی: برخی استدلال میکنند که این سیستم تنها وابستگی به یک فروشنده واحد را با وابستگی به فروشنده دیگر جایگزین کرده است.
- هزینه: تحلیلگران مستقل هشدار میدهند که یک سازماندهنده که تعداد زیادی توکن از مدلهای پیشرو مصرف کند، ممکن است همیشه نتواند نتایج بهتری نسبت به روش نمونهبرداری best-of-n به دست آورد. این دغدغه هزینهای مشابه آنچه در کاهش هزینههای سیستمهای چندعاملی با استفاده از لایههای مسیریابی مشاهده شد، است؛ جایی که بهینهسازی جریان توکنها برای بقای اقتصادی این سیستمها حیاتی است.
برای متخصصان فنی، این یک سیگنال به سوی تغییر پارادایم به سمت «مدلهای سازماندهنده» بهعنوان مرز بعدی است. همانطور که دیوید ها، مدیرعامل Sakana AI میگوید: «مدلهای سازماندهنده مرز بعدی هستند، فراتر از مدلهای بزرگتر». فرض بنیادین دیگر این نیست که مدل بزرگتر همیشه بهتر است، بلکه سیستمی که بتواند تخصصهای مختلف را بهطور هوشمند ترکیب کند، سقف عملکرد بالاتری خواهد داشت و مدیریت ریسک بهتری را ارائه میدهد.
گام بعدی شما
- اگر از APIهای OpenAI استفاده میکنید، مدل
fugu-ultra-20260615را در تسکهای کدنویسی پیچیده که نیاز به استدلال چندمرحلهای دارند امتحان کنید. - هزینههای توکن مصرفی در Fugu Ultra را با نتایج حاصله مقایسه کنید تا متوجه شوید آیا کیفیتِ افزوده، هزینه استنتاجِ بیشتر را توجیه میکند یا خیر.
- ساختار نقشهای Thinker و Verifier را در سیستمهای عاملمحور خود پیادهسازی کنید تا نرخ توهم را کاهش دهید.
اما تأثیر این معماری بر هزینههای عملیاتی مراکز داده بسیار حیاتی است — به تحلیل ما دربارهی بهینهسازیهای استنتاج در سختافزارهای نسل جدید مراجعه کنید.




گفتگو