vLLM با مسیریاب معنایی، عملکرد مدل‌های پیشرو را در بنچمارک‌های سخت شکست داد

اگر امروز برای استقرار مدل‌های زبانی هزینه می‌کنید، باید بدانید که لایه سرویس‌دهی اکنون می‌تواند هوشمندتر از خودِ مدل باشد. طبق گزارشی که در ۲۹ ژوئن ۲۰۲۶ توسط vllm.ai منتشر شد، vLLM Semantic Router می‌تواند با استقرار تیمی منضبط از ریز-عامل‌ها پشت یک هویت مدل واحد، عملکرد مدل‌های پیشرو (Frontier Models) را به چالش بکشد. این تغییر به طور موثری لایه هوش را از وزن‌های مدل به زیرساخت سرویس‌دهی منتقل می‌کند.

برای سال‌ها، توسعه‌دهندگان با API مدل‌ها مانند یک لوله غیرفعال برخورد می‌کردند؛ شما یک پرامپت را به یک مدل خاص می‌فرستادید و یک پاسخ دریافت می‌کردید. اگر رفتار پیچیده‌ای می‌خواستید، مجبور بودید در منطق برنامه خود یک گراف عامل (Agent Graph) سفارشی بسازید که اغلب باعث افزایش تأخیر و شکنندگی سیستم می‌شد.

تصور کنید API شما به‌جای انتخاب یک مدل، مانند یک مدیر عمل کند. این مدیر درخواست شما را تحلیل می‌کند، تصمیم می‌گیرد که آیا این یک سؤال ساده است یا یک تکلیف استدلالی پیچیده، و سپس تیمی از مدل‌های مناسب را برای حل آن جمع می‌کند — تمام این‌ها پیش از بازگرداندن یک پاسخ واحد و تمیز به کاربر. این یعنی تغییر رویکرد از «انتخاب مدل» به «ساخت قابلیت».

عامل خرد: غلبه بر مدل‌های مرزی با همکاری درون API مدل

زمینه و ضرورت مسیریابی در هوش مصنوعی

مسیریاب‌ها اکنون به صفحه کنترل استنتاج (Inference) — لحظه‌ای که مدل واقعاً جواب تولید می‌کند، شبیه خودِ آشپزی و نه دوره‌ی آموزش آشپز — تبدیل شده‌اند. در ابتدا، نقش آن‌ها کاربردی بود: هدایت درخواست درست به مدل درست. این موضوع حیاتی است زیرا هوش مصنوعی در محیط عملیاتی دیگر دنیای تک‌مدلی نیست.

مسیریاب‌های مدرن چندین وظیفه ضروری را ارائه می‌دهند:

کاهش هزینه: تصمیم‌گیری درباره اینکه چه زمانی یک درخواست شایسته مدل پیشرو است و چه زمانی یک مدل بازمتن یا محلی کفایت می‌کند.
اجرای ایمنی: ارسال حوزه‌های حساس به مدل‌هایی با فیلترهای سخت‌گیرانه‌تر، مدل‌های ایمن‌تر یا مسیرهای بررسی دقیق‌تر.
هماهنگی ابر و لبه: نگه داشتن قصد‌های خصوصی یا کم‌تأخیر در لبه (Edge) و ارجاع کارهای دشوارتر به ابر.

با این حال، تکامل بعدی، بهبود مدل بدون تغییر در وزن‌هاست. این فلسفه در پروژه‌هایی مثل Sakana Fugu دیده می‌شود که با یک «مدل» به عنوان سطحی برخورد می‌کند که تیمی در پشت آن قرار دارد. در حالی که تحقیقاتی مانند گزارش فنی Fugu و مقالات هماهنگی مانند Conductor و Trinity زبان لازم برای ارکستراسیون را فراهم کردند، vLLM Semantic Router این انتزاع را به لایه باز سرویس‌دهی آورد.

محیط اجرای لوپر (Looper Runtime)

قلب این سیستم «لوپر» است؛ یک محیط اجرا برای ریز-عامل‌های محدود. وقتی درخواستی به نقطه اتصال vllm-sr/auto می‌رسد، مسیریاب آن را به شکل‌های تکلیفی (Task-shapes) یا باندهای ریسک تبدیل می‌کند تا الگوریتم مناسب را انتخاب کند.

پشت این هویت مدل واحد، مسیریاب می‌تواند یک «دستور پخت» (Recipe) را انتخاب کند، کار را بین چندین کارگر پخش کند، یک حد نصاب (Quorum) جمع‌آوری کند، اختلافات را تأیید کند، یک پاسخ نهایی را سنتز کند و قرارداد خروجی را اصلاح نماید. هدف این است که همکاری تیمی، برای کاربر شبیه به خروجی یک مدل واحد به نظر برسد و پیچیدگی‌ها به کاربر نمایش داده نشود.

برخلاف عامل‌های خودمختار نامحدود، لوپر تحت کنترل‌های سخت‌گیرانه زیرساختی عمل می‌کند. این یک محیط اجرای کوچک با بودجه، توپولوژی، ردپا (Trace) و سیاست شکست تعریف‌شده است. این امر تضمین می‌کند که سیستم آماده تولید باشد و توسط زیرساخت مدیریت شود، نه توسط چسب‌های برنامه‌نویسی در لایه اپلیکیشن.

پنج الگوی همکاری اصلی

vLLM پنج الگوی متمایز لوپر را برای مدیریت انواع مختلف بار شناختی پیاده کرده است:

اعتماد (Confidence): یک حلقه ارتقای متوالی و حساس به هزینه. این حلقه با یک کاندیدای کوچک‌تر یا ارزان‌تر شروع می‌کند و ارزیابی می‌کند که آیا پاسخ به اندازه کافی مطمئن است تا متوقف شود یا خیر. سیگنال‌های اعتماد می‌توانند از موارد زیر باشند:
- احتمال لگاریتمی در سطح توکن (Token-level log probability)
- حاشیه Logprob
- امتیازهای ترکیبی (Hybrid scores)
- خود-تأییدسازی (Self-verification)
- تأییدکننده‌های استلزامی به سبک AutoMix
  اگر امتیاز خیلی پایین باشد، مسیر به کاندیدای بعدی ارتقا می‌یابد. این کار ارتقا را به یک سیاست توقف اندازه‌گیری شده با آستانه‌های قابل تنظیم تبدیل می‌کند.

عامل خرد: غلبه بر مدل‌های مرزی با همکاری درون API مدل

رتبه‌بندی (Ratings): یک حلقه مجموعه‌ای کنترل‌شده. این الگو چندین کاندیدا را به‌طور موازی اجرا می‌کند، اما فقط تا یک سقف پیکربندی شده به نام max_concurrent. این کار از پخش نامحدود جلوگیری می‌کند در حالی که از دیدگاه‌های چندین مدل بهره می‌برد. مسیریاب از تجمیع آگاه از رتبه استفاده می‌کند و به‌ویژه برای ارزیابی‌های سبک A/B و استراتژی‌های مجموعه‌ای مفید است.

عامل خرد: غلبه بر مدل‌های مرزی با همکاری درون API مدل

ReMoM (ترکیب تکرارپذیر مدل‌ها): برای تکالیفی با واریانس استدلالی بالا طراحی شده است که در آن فرمت پاسخ باید در طول همکاری حفظ شود. این الگو چندین تلاش استدلالی را پخش می‌کند و منتظر رسیدن به یک حد نصاب موفقیت حداقلی می‌ماند. سپس یک مدل سنتز، شواهد را در قرارداد خروجی مورد نیاز ادغام می‌کند. اگر سنتز شکست بخورد، سیستم به‌جای بازگرداندن خطای API، می‌تواند به بهترین شواهد معتبر بازگردد.

عامل خرد: غلبه بر مدل‌های مرزی با همکاری درون API مدل

تلفیق (Fusion): الگویی که با اختلاف‌نظر به عنوان یک سیگنال برخورد می‌کند. به‌جای جست‌وجوی یک پاسخ میانگین، از پاسخ‌های مستقل پانل به عنوان شواهد استفاده می‌کند. یک داور، توافق، تضاد و بینش‌های منحصر‌به‌فرد را تحلیل می‌کند و یک نهایی‌کننده، یک پاسخ را با ردپای متراکم بازمی‌گرداند. این برای استدلال‌های سخت چندگزینه‌ای یا قضاوت‌های تخصصی طولانی که پاسخ‌های تک‌مدلی در آن‌ها شکننده هستند، ایده‌آل است.

عامل خرد: غلبه بر مدل‌های مرزی با همکاری درون API مدل

گردش‌های کاری (Workflows): عامل‌محورترین الگو است که سخت‌گیرانه‌ترین مرزها را می‌طلبد. این الگو از یک محیط اجرای گردش کار ریز-عامل با نقش‌های استاتیک یا یک برنامه‌ریز پویا پشتیبانی می‌کند. برای تکالیف سبک SWE (مهندسی نرم‌افزار)، مسیریاب می‌تواند یک برنامه‌ریز، اصلاح‌کننده، تأییدکننده و نهایی‌کننده را تعریف کند. برای حفظ ایمنی، برنامه‌ریز فقط می‌تواند مدل‌های کارگر مجاز را انتخاب کند و گام‌ها توسط حداکثر تعداد گام، حداکثر موازی‌سازی، تایم-اوت‌ها و سیاست‌های خطا محدود می‌شوند.

عامل خرد: غلبه بر مدل‌های مرزی با همکاری درون API مدل

دستورهای پخت متناسب با تکلیف

قدرت سیستم از «دستورهای پخت» (Recipes) می‌آید؛ پیکربندی‌هایی که برای بنچمارک‌های خاص بهینه شده‌اند. مسیریاب فقط بزرگ‌ترین حلقه را اجرا نمی‌کند، بلکه بر اساس واقعیت‌های مسیریابی مانند سختی، ریسک، فشار قرارداد، تأخیر و هزینه، دستور پختی را انتخاب می‌کند که با شکل تکلیف سازگار باشد.

مثال‌های خاص از دستورهای پخت عبارتند از:

GPQA-Diamond: پرامپت‌های سخت چندگزینه‌ای علوم را به یک دستور پخت ReMoM با حفظ سخت‌گیرانه فرمت ANSWER: X هدایت می‌کند.
LiveCodeBench: پیش از انتخاب یک حلقه کد-محور، محدودیت‌ها، کد اولیه، ورودی استاندارد، تلورانس اعشاری، ریسک تایم-اوت و ریسک تست‌های پنهان را تحلیل می‌کند.
Humanity's Last Exam (HLE): استدلال‌های صوری، ریسک اختلاف‌نظر، کانتکست طولانی و فشار برای پاسخ دقیق را شناسایی می‌کند تا بین ReMoM عمیق، Fusion کوچک‌تر یا یک مسیر جایگزین (Fallback) تصمیم بگیرد.

عامل خرد: غلبه بر مدل‌های مرزی با همکاری درون API مدل

این رویکرد ثابت می‌کند که بهترین حلقه، حلقه‌ای است که متناسب با شکل تکلیف باشد. دستور پخت، استخر مدل‌ها، نقش‌ها، تلاش استدلالی، همزمانی، حد نصاب، تایم-اوت، مدل سنتز، سیاست جایگزین، قرارداد خروجی و برچسب‌های مشاهده‌پذیری را تعریف می‌کند.

تحلیل عملکرد و بنچمارک‌ها

داده‌های ارزیابی نشان می‌دهد که همکاری تحت مالکیت مسیریاب، هویتی قوی‌تر از هر مدل واحدی می‌سازد. در آزمون‌های سه بنچمارک سخت، دستور پخت «VSR Closed» (که فقط از بک‌اندهای مدل‌های بسته استفاده می‌کند) نتایج قابل توجهی به دست آورد:

LiveCodeBench (ژانویه-آپریل ۲۰۲۵): امتیاز ۹۲.۶ را کسب کرد و از GPT-5.5 (۹۰.۷)، Fugu Ultra (۹۲.۰)، Fugu (۹۰.۳) و Opus 4.8 (۹۰.۳) پیشی گرفت.
GPQA-Diamond: امتیاز ۹۶.۰ را به دست آورد و از Fugu Ultra (۹۵.۵)، Fugu (۹۵.۵)، Gemini 3.1 Pro (۹۴.۳) و GPT-5.5 (۹۳.۶) پیشی گرفت.
Humanity's Last Exam: امتیاز ۵۰.۰ را کسب کرد که با Fugu Ultra (۵۰.۰) برابر بود و از Fugu (۴۸.۵) و Gemini 3.1 Pro (۴۵.۰) بهتر عمل کرد.

عامل خرد: غلبه بر مدل‌های مرزی با همکاری درون API مدل

مزیت رویکرد ترکیبی (Hybrid)

vLLM همچنین رویکرد «VSR Hybrid» را آزمایش کرد که مدل‌های وزن‌های باز (Open Weights) را با مدل‌های بسته ترکیب می‌کند. در این ساختار، مدل‌های بسته قوی‌تر برای داوری‌های پرریسک، اصلاح یا سنتز رزرو می‌شوند، در حالی که مدل‌های باز حجم اصلی کارهای کارگری را انجام می‌دهند.

در آزمون Humanity's Last Exam، دستور پخت ترکیبی امتیاز ۴۷.۱ را کسب کرد و از GLM-5.2 (۴۰.۵)، Qwen3.7 Max (۴۱.۴) و GPT-5.5 (۴۱.۴) بهتر عمل کرد.

این ثابت می‌کند که لایه سرویس‌دهی می‌تواند ترکیبی از ارائه‌دهندگان را سازماندهی کند تا با خطوط پایه مدل‌های پیشرو برابری کند یا از آن‌ها پیشی بگیرد، در حالی که یک سطح API سازگار با OpenAI را حفظ می‌کند. سیستم می‌تواند بدون تغییر در یکپارچگی کلاینت، بهبود یابد.

تغییر پارادایم سرویس‌دهی

این معماری، پشته سرویس‌دهی را از حالت غیرفعال به فعال تبدیل می‌کند. به‌جای صرفاً مسیریابی، زیرساخت اکنون می‌پرسد:

چه شواهدی درباره این درخواست داریم؟
این درخواست در کدام باند کیفیت، هزینه، تأخیر و ایمنی قرار می‌گیرد؟
آیا یک مدل کافی است یا کدام الگوی همکاری باید اجرا شود؟
کدام قرارداد پاسخ باید حفظ شود؟
اگر یک ارائه‌دهنده کند یا اشتباه بود چه اتفاقی باید بیفتد؟
چگونه یک پاسخ تمیز ارائه دهیم در حالی که ردپای کامل را حفظ کنیم؟

با انتقال ریز-عامل‌ها به داخل مسیریاب، vLLM از مالکیت فعلی مسیریاب بر نام‌های مستعار مدل، سیاست ارائه‌دهنده، اعتبارنامه‌ها، متادیتای هزینه، سیگنال‌ها، تصمیمات، تلاش‌های مجدد، تایم-اوت‌ها، ردپاها و معناشناسی پاسخ‌های سازگار با OpenAI بهره می‌برد. این کار «چسب‌های برنامه‌نویسی» (Application Glue) را که معمولاً برای ساخت سیستم‌های عامل‌محور لازم است، حذف می‌کند.

برای توسعه‌دهنده، این بدان معناست که سیستم می‌تواند — با به‌روزرسانی یک دستور پخت یا افزودن یک مدل جدید به استخر — بدون تغییر حتی یک خط کد یکپارچه‌سازی در سمت کلاینت، ارتقا یابد.

این تحول نشان می‌دهد که «مدل پیشرو» بعدی، لزوماً یک چک‌پوینت بزرگ‌تر از وزن‌ها نیست، بلکه یک مرز سیستمی است. رقابت اکنون به سمت مسیریاب‌هایی می‌رود که می‌توانند یک درخواست واحد را به تیمی منضبط و مقرون‌به‌صرفه تبدیل کنند. این وعده ریز-عامل‌ها در داخل API مدل است.

گام بعدی شما

اگر از vLLM برای استقرار مدل‌ها استفاده می‌کنید، نقطه اتصال vllm-sr/auto را برای تست الگوهای همکاری فعال کنید.
برای کاهش هزینه‌ها، الگوی Confidence را پیاده کنید تا درخواست‌های ساده توسط مدل‌های کوچک‌تر پاسخ داده شوند.
دستورهای پخت (Recipes) اختصاصی برای دامین کاری خود تعریف کنید تا دقت استدلال را بدون تغییر مدل افزایش دهید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

عامل خرد: غلبه بر مدل‌های مرزی با همکاری درون API مدل