پیروزی خیره‌کننده RaguTeam: غلبه بر gpt-oss-120b با یک ارکستراسیون هوشمند

تصور کنید ارتشی از مدل‌های کوچک، غول‌های تریلیونی را به زانو درآورند. این دیگر یک فرضیه نیست، بلکه واقعیت جدید دنیای هوش مصنوعی زاینده (Generative AI) است.

در ۷ مه ۲۰۲۶، RaguTeam معماری برنده خود را در رقابت MTRAGEval (بخش B) از مسابقات SemEval-2026 رونمایی کرد. به نقل از گزارش منتشرشده در arxiv.org، این تیم توانست از میان ۲۶ گروه شرکت‌کننده، رتبه اول را کسب کند. نکته تکان‌دهنده این است که موفقیت آن‌ها نه در گروی یک مدل عظیم، بلکه در گروی ارکستراسیون پیچیده‌ای از چندین عامل (Agent) کوچک و بزرگ بود.

این سیستم از یک مجموعه ناهمگون شامل ۷ مدل زبانی بزرگ (Large Language Model) در کنار دو مدل پرامپت متفاوت استفاده می‌کند. برای تضمین کیفیت نهایی، یک مدل GPT-4o-mini در نقش داور قرار گرفته تا بهترین پاسخ را از میان کاندیدها برای هر مورد خاص انتخاب کند.

دستاورد‌های فنی این معماری عبارت‌اند از:

کسب میانگین هارمونیک شرطی ۰.۷۸۲۷ که به‌طور چشمگیری از رقیب قدرتمند، gpt-oss-120b با امتیاز ۰.۶۳۹۰ پیشی گرفت.
معرفی Meno-Lite-0.1؛ یک مدل ۷ میلیارد پارامتری که برای بهینه‌سازی توازن میان هزینه و عملکرد، به‌صورت تخصصی تنظیم شده است.
اثبات این نکته که تنوع در خانواده‌های مدل و مقیاس آن‌ها، برای شکست دادن معماری‌های تک‌مدلی ضروری است.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی امنیت مدل‌های بازمتن اشاره کردیم، تنوع در معماری‌ها همواره کلید پایداری و دقت بوده است. طبق اعلام RaguTeam، این پیروزی نشان می‌دهد که «هوش جمعی» مدل‌ها بر مقیاس‌پذیری خام پارامترها برتری دارد.

با رشد مدل‌های تخصصی مانند Meno-Lite-0.1، صنعت احتمالاً از تعقیب غول‌های تریلیون-پارامتری به سمت بهینه‌سازی مجموعه‌های چابک و تخصصی تغییر مسیر می‌دهد.

اما این تنها بخشی از بازی است؛ تأثیر این رویکرد بر هزینه‌های استنتاج (Inference) را در گزارش بعدی بررسی خواهیم کرد.

گام بعدی شما

بررسی متدولوژی Ensemble در پروژه‌های خود برای کاهش توهمات مدل.
آزمایش مدل‌های کوچک‌تر (SLM) در کنار یک مدل داور برای ارتقای کیفیت خروجی.
مطالعه مستندات Meno-Lite-0.1 برای درک نحوه تنظیم دقیق مدل‌های دامنه-محور.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

دستاورد‌های فنی این معماری عبارت‌اند از:

کسب میانگین هارمونیک شرطی ۰.۷۸۲۷ که به‌طور چشمگیری از رقیب قدرتمند، gpt-oss-120b با امتیاز ۰.۶۳۹۰ پیشی گرفت.
معرفی Meno-Lite-0.1؛ یک مدل ۷ میلیارد پارامتری که برای بهینه‌سازی توازن میان هزینه و عملکرد، به‌صورت تخصصی تنظیم شده است.
اثبات این نکته که تنوع در خانواده‌های مدل و مقیاس آن‌ها، برای شکست دادن معماری‌های تک‌مدلی ضروری است.

گام بعدی شما

بررسی متدولوژی Ensemble در پروژه‌های خود برای کاهش توهمات مدل.
آزمایش مدل‌های کوچک‌تر (SLM) در کنار یک مدل داور برای ارتقای کیفیت خروجی.
مطالعه مستندات Meno-Lite-0.1 برای درک نحوه تنظیم دقیق مدل‌های دامنه-محور.

پیروزی خیره‌کننده RaguTeam: غلبه بر gpt-oss-120b با یک ارکستراسیون هوشمند

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پیروزی خیره‌کننده RaguTeam: غلبه بر gpt-oss-120b با یک ارکستراسیون هوشمند

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پیروزی خیره‌کننده RaguTeam: غلبه بر gpt-oss-120b با یک ارکستراسیون هوشمند

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

پیروزی خیره‌کننده RaguTeam: غلبه بر gpt-oss-120b با یک ارکستراسیون هوشمند

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران