Fugu Ultra در برابر GPT-5.5؛ پیروزی سازمان‌دهی مدل‌ها در استدلال پیچیده

منبع خبر

۱ دقیقه پیش·۱ تیر ۱۴۰۵۵ دقیقه مطالعه

ساکانا AI مدل هماهنگ‌کننده Fugu را معرفی کرد: مسیریابی هوشمند وظایف بین مدل‌های زبانی پیشرفته با قابلیت جابجایی

اشتراک‌گذاری

عصر انتخاب یک مدل «بهترین» برای تمام کارها به پایان رسیده است. Sakana AI با معرفی Sakana Fugu، قواعد بازی را تغییر داد؛ سیستمی که در ظاهر یک مدل واحد است، اما در باطن مجموعه‌ای از مدل‌های زبانی پیشرو (Frontier LLMs) را برای حل مسائل مدیریت می‌کند و آن‌ها را به صورت یک استخر قابل تعویض سازمان‌دهی می‌کند.

این رویکرد، بار انتخاب مدل را از دوش برنامه‌نویس و کدهای او برداشته و به یک لایه سازمان‌دهنده (Orchestration) آموخته‌شده می‌سپارد. به‌جای کدنویسی سخت (Hard-coding) برای جریان‌های کاری، Fugu مانند یک هماهنگ‌کننده عمل می‌کند که تصمیم می‌گیرد چه زمانی کار را تفویض کند، عامل‌ها چگونه با هم ارتباط برقرار کنند و پاسخ نهایی چگونه ترکیب و سنتز شود. در واقع، کاربر از بیرون تنها یک مدل را فراخوانی می‌کند، اما در پشت صحنه، تیمی از متخصصان سازمان‌یافته در حال انجام کار هستند.

همان‌طور که در تحلیل قبلی ما درباره‌ی امنیت مدل‌های پیشرو و ریسک تزریق پرامپت (Prompt Injection) اشاره کردیم، تداخل نقش‌ها می‌تواند منجر به ناپایداری شود. معماری Fugu با رسمی‌کردن این نقش‌ها، سعی می‌کند بی‌ثباتی موجود در جریان‌های کاری تک‌مدلی را کاهش دهد. این سیستم با تخصیص نقش‌های مشخصی نظیر «متفکر» (Thinker)، «کارگر» (Worker) و «تصحیح‌کننده» (Verifier)، ساختار عملیاتی را تثبیت می‌کند.

سازوکار سازمان‌دهی آموخته‌شده

طبق اعلام این شرکت، Fugu که در ۲۲ ژوئن ۲۰۲۶ عرضه شد، یک مسیریاب (Router) ساده نیست، بلکه یک مدل زبانی است که به‌طور ویژه برای فراخوانی سایر مدل‌های زبانی بزرگ آموزش دیده است. این سامانه چندعاملی (Multi-agent system) به‌گونه‌ای رفتار می‌کند که گویی یک مدل واحد است. کاربران درخواست خود را به یک نقطه پایانی (Endpoint) واحد ارسال می‌کنند و Fugu تصمیم می‌گیرد چگونه آن را درونیزه کند. اگر مسئله ساده باشد، مدل مستقیماً آن را حل می‌کند و اگر پیچیده باشد، تیمی از مدل‌های خبره را سازمان‌دهی و هماهنگ می‌کند.

این سیستم بر پایه دو مقاله علمی از کنفرانس ICLR ۲۰۲۶ یعنی Trinity و Conductor بنا شده است:

Trinity: از یک هماهنگ‌کننده تکامل‌یافته و سبک استفاده می‌کند تا نقش‌ها را در چندین نوبت (Turn) به‌طور سازگارانه تخصیص دهد و وظایف را به نقش‌های متفکر، کارگر یا تصحیح‌کننده تفویض کند.
Conductor: با بهره‌گیری از یادگیری تقویتی (Reinforcement Learning)، استراتژی‌های هماهنگی به زبان طبیعی و پرامپت‌های بهینه را برای مجموعه‌های متنوع مدل‌ها کشف می‌کند.

این معماری به Fugu اجازه می‌دهد تا به‌صورت بازگشتی (Recursive) نمونه‌هایی از خودش را فراخوانی کند. این قابلیت بازگشتی باعث می‌شود مدیریت انتخاب مدل، تفویض اختیار، تایید صحت (Verification) و سنتز نهایی همگی در داخل سیستم رخ دهد و پیچیدگی‌های یک سامانه چندعاملی کاملاً از دید برنامه‌نویس پنهان بماند.

تفاوت Fugu و Fugu Ultra

Sakana AI این فناوری را از طریق یک API سازگار با OpenAI ارائه داده است تا کاربران نیازی به مهاجرت SDK و تغییر در زیرساخت‌های کدنویسی خود نداشته باشند. دو نسخه با اولویت‌های متفاوت عرضه شده است:

Fugu: برای تأخیر (Latency) پایین و کارهای روزمره مثل بررسی کد (Code Review)، چت‌بات‌ها و ابزارهایی مانند Codex بهینه شده است. یک ویژگی کلیدی در این نسخه این است که کاربران می‌توانند برخی عامل‌های خاص را از استخر مدل‌ها حذف کنند (Opt-out) تا الزامات سخت‌گیرانه مربوط به داده‌ها، حریم خصوصی و رعایت قوانین انطباق (Compliance) را برآورده سازند.
Fugu Ultra: برای دستیابی به حداکثر کیفیت در مسائل سخت و چندمرحله‌ای طراحی شده است. این نسخه یک استخر عمیق‌تر و ثابت از عامل‌های خبره را هماهنگ می‌کند. به دلیل ثابت بودن این استخر، ویژگی حذف عامل (Opt-out) در این نسخه در دسترس نیست. شناسه فعلی این مدل fugu-ultra-20260615 است.

عملکرد در محک‌های فنی

بر اساس تحلیل فنی Marktechpost، نسخه Fugu Ultra در اکثر بنچمارک‌های منتشر شده تسلط دارد و در ۱۰ مورد از ۱۱ ردیف ردیابی شده، رتبه نخست را کسب کرده است. این مدل در چهار بنچمارک کدنویسی پیشتاز است و بالاترین امتیاز را در آزمون‌های CharXiv Reasoning و Humanity’s Last Exam به دست آورده است.

داده‌های دقیق در محک‌های کلیدی عبارتند از:

SWE Bench Pro (با استفاده از داربست mini-swe-agent): مدل Fugu Ultra با امتیاز ۷۳.۷، مدل‌های Opus 4.8 (۶۹.۲)، GPT 5.5 (۵۸.۶) و Gemini 3.1 Pro (۵۴.۲) را شکست داد.
LiveCodeBench: امتیاز Fugu Ultra برابر با ۹۳.۲ بود، در حالی که GPT 5.5 امتیاز ۸۵.۳ و Gemini 3.1 Pro امتیاز ۸۸.۵ گرفتند.
LiveCodeBench Pro: مدل Fugu Ultra با امتیاز ۹۰.۸ از GPT 5.5 (۸۸.۴) پیشی گرفت.
Humanity’s Last Exam: مدل Fugu Ultra با امتیاز ۵۰.۰ در صدر قرار گرفت (Opus 4.8 با ۴۹.۸).
CharXiv Reasoning: مدل Fugu Ultra با امتیاز ۸۶.۶ رتبه اول شد.
GPQA-D: هر دو نسخه Fugu و Fugu Ultra با امتیاز ۹۵.۵ مشترکاً در جایگاه نخست قرار گرفتند.
SciCode, τ³ Banking, and Long Context Reasoning: نسخه معمولی Fugu در این دسته‌ها پیشتاز بود (به عنوان مثال امتیاز ۶۰.۱ در SciCode و ۲۱.۷ در τ³ Banking).
MRCRv2: این تنها مورد بود که مدل‌های پایه پیروز شدند و GPT 5.5 با امتیاز ۹۴.۸ توانست Fugu Ultra (۹۳.۶) را شکست دهد.

در حال حاضر مدل‌های Fugu هم‌تراز با Fable 5 و Mythos Preview شرکت Anthropic هستند، هرچند این دو مدل در استخر Fugu قرار ندارند زیرا به صورت عمومی در دسترس نیستند.

کاربردهای دنیای واقعی

در یک نسخه بتای محدود با نزدیک به ۵۰۰ کاربر اولیه، Fugu Ultra قابلیت‌هایی را به نمایش گذاشت که از مدل‌های پیشرو به صورت تک‌نفره فراتر بود، به‌ویژه در وظایف طولانی و چندمرحله‌ای:

پژوهش خودکار (AutoResearch): یک عامل توانست به‌طور خودگردان دستور آموزش یک مدل GPT کوچک را بهبود بخشد. این کار با اجرای ۱۲۳ آزمایش طی تقریباً ۱۴ ساعت روی یک GPU H100 انجام شد. Fugu Ultra به میانگین اعتبارسنجی BPB برابر با ۰.۹۷۷۴ دست یافت و بهترین اجرای تک‌مرحله‌ای آن ۰.۹۷۴۸ بود.
حل مکعب روبیک: در چالشی که نیاز به کدنویسی خالص پایتون (Pure-Python) بدون استفاده از کتابخانه داشت، Fugu Ultra تمام ۳۰۰ مکعب تست را با میانگین ۱۹.۷۲ حرکت حل کرد. در همین حال، دو مدل رقیب دیگر دچار کرش شدند و هیچ مکعبی را حل نکردند.
خواندن ژاپنی کلاسیک: در یک تست ۱۶۱۰ حرفه‌ای برای ترتیب خواندن کانا (Kana)، مدل Fugu Ultra امتیاز NED ۰.۸۰ کسب کرد، در حالی که نزدیک‌ترین رقیب تنها به ۰.۲۴ رسید.
شطرنج حافظه‌ای (Blindfold Chess): این مدل چهار بازی را بدون دیدن صفحه و تنها با حافظه پیش برد و سه مدل پیشرو و حتی موتور Stockfish با رده‌بندی ۲۱۰۰ Elo را شکست داد.
معاملات آنلاین: در یک بازه ۵۰ هفته‌ای، Fugu Ultra به‌طور میانگین بازدهی ۱۹.۴۳+ درصد در پنج اجرا داشت، در حالی که سایر مدل‌های پیشرو زیر ۱۵+ درصد باقی ماندند.

استراتژی حاکمیت مدل

Sakana AI مدل Fugu را به‌عنوان یک پوشش یا «هج» (Hedge) در برابر وابستگی به یک فروشنده واحد معرفی می‌کند. با اشاره به کنترل‌های صادراتی اخیر روی مدل‌های Fable و Mythos شرکت Anthropic، این شرکت Fugu را ابزاری برای دور زدن اختلالات احتمالی معرفی کرده است؛ به‌طوری که اگر یک تامین‌کننده دسترسی را محدود کند، سیستم بتواند مسیر را تغییر دهد. از آنجایی که مسیریابی (Routing) اختصاصی است، انتخاب مدل برای هر پرس‌وجو از دید کاربر پنهان می‌ماند.

با این حال، واکنش‌های اولیه جامعه کاربران در X و Hacker News در ۲۲ ژوئن ۲۰۲۶ متناقض و تا حد زیادی تردیدآمیز بود. بررسی ۱۲ پست نشان داد که ۳ مورد حمایت، ۶ مورد تردید و ۳ مورد انتقاد شدید داشتند. منتقدان می‌پرسند آیا Fugu صرفاً یک «رپِر پیشرفته» (Advanced Wrapper) یا نسخه‌ای تجاری‌شده از OpenRouter است یا خیر.

نقدها عمدتاً بر سه محور متمرکز است:

قابلیت مشاهده (Observability): کاربران در Hacker News خواستار شفافیت واقعی در مورد اینکه دقیقاً کدام عامل‌ها در حال اجرا هستند شدند.
وابستگی: برخی استدلال می‌کنند که این سیستم تنها وابستگی به یک فروشنده واحد را با وابستگی به فروشنده دیگر جایگزین کرده است.
هزینه: تحلیلگران مستقل هشدار می‌دهند که یک سازمان‌دهنده که تعداد زیادی توکن از مدل‌های پیشرو مصرف کند، ممکن است همیشه نتواند نتایج بهتری نسبت به روش نمونه‌برداری best-of-n به دست آورد. این دغدغه هزینه‌ای مشابه آنچه در کاهش هزینه‌های سیستم‌های چندعاملی با استفاده از لایه‌های مسیریابی مشاهده شد، است؛ جایی که بهینه‌سازی جریان توکن‌ها برای بقای اقتصادی این سیستم‌ها حیاتی است.

برای متخصصان فنی، این یک سیگنال به سوی تغییر پارادایم به سمت «مدل‌های سازمان‌دهنده» به‌عنوان مرز بعدی است. همان‌طور که دیوید ها، مدیرعامل Sakana AI می‌گوید: «مدل‌های سازمان‌دهنده مرز بعدی هستند، فراتر از مدل‌های بزرگ‌تر». فرض بنیادین دیگر این نیست که مدل بزرگ‌تر همیشه بهتر است، بلکه سیستمی که بتواند تخصص‌های مختلف را به‌طور هوشمند ترکیب کند، سقف عملکرد بالاتری خواهد داشت و مدیریت ریسک بهتری را ارائه می‌دهد.

گام بعدی شما

اگر از APIهای OpenAI استفاده می‌کنید، مدل fugu-ultra-20260615 را در تسک‌های کدنویسی پیچیده که نیاز به استدلال چندمرحله‌ای دارند امتحان کنید.
هزینه‌های توکن مصرفی در Fugu Ultra را با نتایج حاصله مقایسه کنید تا متوجه شوید آیا کیفیتِ افزوده، هزینه استنتاجِ بیشتر را توجیه می‌کند یا خیر.
ساختار نقش‌های Thinker و Verifier را در سیستم‌های عامل‌محور خود پیاده‌سازی کنید تا نرخ توهم را کاهش دهید.

اما تأثیر این معماری بر هزینه‌های عملیاتی مراکز داده بسیار حیاتی است — به تحلیل ما درباره‌ی بهینه‌سازی‌های استنتاج در سخت‌افزارهای نسل جدید مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

Fugu Ultra در برابر GPT-5.5؛ پیروزی سازمان‌دهی مدل‌ها در استدلال پیچیده

MarkTechPost

منبع خبر

۱ دقیقه پیش·۱ تیر ۱۴۰۵۵ دقیقه مطالعه

اشتراک‌گذاری