Wayfinder-Router: حذف کامل تأخیر و هزینه با صفر فراخوانی مدل

یک توسعه‌دهنده که روزانه هزاران درخواست به مدل‌های مختلف می‌فرستد، می‌داند که هزینه استنتاج (Inference) — لحظه‌ای که مدل واقعاً جواب تولید می‌کند و شبیه خودِ آشپزی است، نه دوره‌ی آموزش آشپز — می‌تواند به‌سرعت بودجه پروژه را تخلیه کند. حالا Wayfinder-Router وارد میدان شده تا این هزینه را با یک تغییر ساده در منطق مسیریابی به حداقل برساند.

به نقل از مستندات این پروژه، این ابزار که در ۲۸ ژوئن ۲۰۲۶ عرضه شد، اجازه می‌دهد ترافیک بین مدل‌های زبانی بزرگ (LLM) — مثل کتابخانه‌داری که میلیاردها صفحه را خوانده و حالا با همان لحن کتاب‌ها جواب می‌دهد — محلی و ابری تقسیم شود، بدون اینکه نیاز باشد برای هر تصمیم، هزینه یک مدل «داور» پرداخت شود. برخلاف مسیریاب‌های معنایی که برای تصمیم‌گیری نیاز به یک مدل کوچک‌تر یا API می‌خواهند، Wayfinder بر اساس «شکل» پرامپت، امتیاز پیچیدگی را در چند میکروثانیه محاسبه می‌کند.

اکثر سیستم‌های مسیریابی فعلی برای تصمیم‌گیری درباره اینکه کدام مدل باید یک پرس‌وجو را مدیریت کند، به یک طبقه‌بندی آموزش‌دیده (Trained Classifier) یا یک API ابری متکی هستند. این فرآیند اغلب یک «مالیات» اضافی به شکل توکن‌های بیشتر و رفت‌وبرگشت‌های شبکه (Network Round-trips) ایجاد می‌کند، پیش از آنکه پاسخ واقعی تولید شود. همان‌طور که در تحلیل قبلی ما درباره‌ی کاهش هزینه‌های استنتاج در پلتفرم‌هایی مثل DeepInfra اشاره کردیم (که هزینه‌ها را ۵ تا ۲۷ برابر کمتر از OpenAI می‌کند)، Wayfinder لایه‌ی دوم یعنی «مدیریت هوشمند ترافیک» را هدف قرار داده تا مدل‌های گران‌قیمت مرزی (Frontier Models) فقط زمانی فراخوانی شوند که پرامپت واقعاً به آن‌ها نیاز داشته باشد.

سازوکار مسیریابی قطعی

Wayfinder-Router از تله «فراخوانی مدل برای تصمیم‌گیری» می‌گریزد. به جای اینکه از یک LLM بپرسد «آیا این سؤال سخت است؟»، ساختار متن را اسکن می‌کند. این ابزار «شکل» پرامپت را می‌خواند؛ مواردی مثل طول متن، تیترها، لیست‌ها و کدهای موجود را بررسی کرده و در کنار آن‌ها نشانه‌های دشواری در نحوه بیان (Wording) را تحلیل می‌کند. این تحلیل در نهایت به یک امتیاز پیچیدگی بین ۰.۰ تا ۱.۰ تبدیل می‌شود.

ابزار ساده خط فرمان برای مسیریابی قطعی پرسش‌ها بین مدل‌های LLM محلی و میزبانی‌شده

از آن‌جا که این فرآیند کاملاً آفلاین و قطعی (Deterministic) است، تصمیمات برای پرامپت‌های مشابه همیشه یکسان و رایگان است. هیچ نیاز به استفاده از APIهای ابری، طبقه‌بندهای آموزش‌دیده یا مدل‌های داور برای تعیین مسیر نیست و در نتیجه هیچ درخواست شبکه‌ای برای تصمیم‌گیری در مورد مقصد پرامپت ارسال نمی‌شود.

نشانه‌های ساختاری در برابر واژگانی

طبق گزارش‌های فنی این ابزار، Wayfinder می‌تواند نشانه‌های واژگانی (Lexical Cues) مثل کلمات «اثبات» (proofs)، «ریاضی» (math) و «محدودیت‌های سخت» (hard constraints) را شناسایی کند. با این حال، این‌ها ویژگی‌های اختیاری (Opt-in) هستند. یک تست دوپلای (double-blind) روی پرامپت‌هایی که به‌صورت مستقل نوشته شده بودند، نشان داد که نشانه‌های واژگانی تنها حدود ۲۰٪ از پرامپت‌های دشوارِ دیده‌نشده را شناسایی می‌کنند و در بسیاری از موارد حتی از یک معیار ساده‌ی «شمارش کلمات» (Word-count baseline) ضعیف‌تر عمل کردند.

به همین دلیل، چون اثرگذاری واژگانی همیشه قابل تعمیم نیست، این ویژگی‌ها به‌صورت پیش‌فرض غیرفعال هستند. به کاربران توصیه می‌شود که وزن این نشانه‌ها را تنها در صورتی افزایش دهند که آن‌ها را با واژگان خاص ترافیک خود کالیبره کرده باشند. اگر پیچیدگی یک پرامپت صرفاً معنایی باشد — مثلاً یک تکه کد ظریف یا سؤالی که در ظاهر بی‌خطر است اما پاسخ سختی دارد، مانند «صدمین عدد اول چیست؟» — هیچ نشانه ساختاری وجود ندارد. در این موارد خاص، یک مسیریاب معنایی (Semantic Router) عملکرد بهتری خواهد داشت.

یکپارچه‌سازی و استقرار

این سامانه به‌عنوان یک درگاه (Gateway) شفاف عمل می‌کند که با پروتکل API شرکت OpenAI صحبت می‌کند. کاربر کافی است base_url کلاینت خود را به آدرس درگاه Wayfinder (معمولاً http://localhost:8088/v1) تغییر دهد تا منطق مسیریابی به‌صورت نامرئی اجرا شود.

لایه محلی: سازگار با سرورهایی مثل Ollama، vLLM، LM Studio یا llama.cpp.
لایه ابری: سازگار با هر نقطه انتهایی (Endpoint) سبک OpenAI، از جمله Anthropic و Google Gemini.
مدیریت کلیدهای محرمانه: کلیدها در لحظه درخواست از متغیرهای محیطی (از طریق api_key_env) خوانده می‌شوند و هرگز روی دیسک ذخیره نمی‌شوند.

کاربران همچنین می‌توانند از یک دستور اختیاری api_key_cmd برای استخراج کلیدها از صندوقچه‌های امنیتی (Vaults) در هنگام شروع برنامه استفاده کنند؛ ابزارهایی مانند 1Password (op read)، macOS Keychain (security)، ابزار secret-tool در لینوکس، AWS Secrets Manager یا Doppler. در این حالت، کلید تنها در حافظه (RAM) نگه داشته می‌شود.

ابزار ساده خط فرمان برای مسیریابی قطعی پرسش‌ها بین مدل‌های LLM محلی و ابری

برای کسانی که از IDEهای حرفه‌ای یا ایجنت‌ها استفاده می‌کنند، این درگاه مستقیماً با ابزارهایی مثل Cursor، Continue و LangChain یکپارچه می‌شود. همچنین از سایر چارچوب‌های ایجنتی مانند LlamaIndex، CrewAI، AutoGen، OpenAI Agents SDK و Vercel AI SDK پشتیبانی می‌کند. این یکپارچگی در کنارِ بهینه‌سازی مستندات برای ماشین‌ها که پیش‌تر بررسی کردیم، می‌تواند کارایی عامل‌های هوشمند را در مدیریت ابزارها به‌شدت افزایش دهد. حتی یک آداپتور ترجمه برای Claude Code در نظر گرفته شده است، زیرا این ابزار معمولاً از Messages API شرکت Anthropic به جای فرمت OpenAI استفاده می‌کند. این قابلیت به Claude Code اجازه می‌دهد از طریق یک آداپتور POST /v1/messages که بین این دو API ترجمه انجام می‌دهد (شامل پشتیبانی از استریمینگ و استفاده از ابزارها)، ترافیک خود را از طریق Wayfinder مسیریابی کند.

کالیبراسیون و حلقه‌های بازخورد

یکی از نقاط قوت اصلی این ابزار، دستور calibrate است. کاربران می‌توانند یک مجموعه‌داده JSONL برچسب‌گذاری‌شده از ترافیک واقعی خود (به فرمت {"text": ..., "label": ...}) به آن بدهند تا نقطه برش (Cut) بهینه بین مدل‌های محلی و ابری پیدا شود.

این ابزار حالت‌های مسیریابی مختلفی را برای نیازهای متفاوت ارائه می‌دهد:

باینری (Binary): یک آستانه واحد (مثلاً ۰.۶) مسیر را تعیین می‌کند. این مقدار را می‌توان برای یک اجرای خاص از طریق --threshold N یا متغیر محیطی WAYFINDER_ROUTER_THRESHOLD تغییر داد.
سطح‌بندی شده (Tiered): باندهای امتیازی مرتب‌شده اجازه استفاده از چندین مدل را می‌دهند؛ مثلاً مسیریابی امتیاز ۰.۰ تا ۰.۳ به Llama-3B، امتیاز ۰.۳ تا ۰.۶ به Llama-70B و امتیاز بالای ۰.۶ به Claude-Cloud.
طبقه‌بند (Classifier): یک مدل رگرسیون لجستیک چندجمله‌ای (Multinomial-logistic) که از روش قطعی L2-regularized Newton/IRLS در پایتون خالص استفاده می‌کند. این مدل معمولاً توسط دستور calibrate تولید می‌شود و نه به‌صورت دستی.

برای اصلاح این مرزها، دستور onboard به کاربران اجازه می‌دهد پرامپت‌ها را در یک مرورگر به‌صورت A/B تست کنند. با قضاوت در این مورد که آیا خروجی محلی «به اندازه کافی خوب» بوده است یا خیر، کاربران یک لاگ بازخورد ایجاد می‌کنند که به‌عنوان مجموعه‌داده کالیبراسیون عمل می‌کند. پس از استقرار در محیط عملیاتی، نقطه انتهایی /v1/feedback به کاربران اجازه می‌دهد قضاوت‌های خود (لایک/دیس‌لایک) را ارسال کنند که می‌تواند برای اجرای دوره‌ای recalibrate از طریق cron یا k8s CronJobs استفاده شود.

حفاظ‌های عملیاتی سطح سازمانی

فراتر از مسیریابی، این درگاه شامل چندین کنترل عملیاتی برای تضمین پایداری و پیش‌بینی‌پذیری هزینه‌هاست:

سقف بودجه: کاربران می‌توانند limit و window (روزانه/ماهانه) را برای هزینه تعیین کنند. در صورت تخطی، سیستم می‌تواند به ارزان‌ترین لایه degrade شود (تنزل یابد) یا درخواست‌ها را با خطای HTTP 402 مسدود کند.
قطع‌کننده مدار (Circuit Breakers): درگاه دارای سیستم تلاش مجدد محدود (Bounded Retries) برای شکست‌های انتقال، خطاهای ۴۲۹ و ۵xx است، در کنار یک breaker_threshold و breaker_cooldown برای هر هدف.
کش تطابق دقیق: یک حافظه موقت در RAM (به‌صورت پیش‌فرض ۶۴ مگابایت) که پاسخ‌های ذخیره‌شده را برای درخواست‌های قطعی و یکسان بازپخش می‌کند. یک پاسخ کش‌شده با هدر x-wayfinder-router-cache: hit علامت‌گذاری می‌شود.
کلیدهای API مجازی: ایجاد کلیدهای هش‌شده SHA-256 از طریق wayfinder-router keys new. این کلیدها امکان ردیابی هزینه (Attribution)، محدودیت نرخ به‌ازای هر کلید و لیست‌های مجاز مدل (Allowlists) را فراهم می‌کنند تا کاربران را به لایه‌های خاصی محدود کنند.
محدودیت نرخ (Rate Limiting): سقف‌های RPM و TPM در سطح درگاه که در صورت تخطی، خطای ۴۲۹ را همراه با هدر Retry-After بازمی‌گردانند.
استراتژی‌های جایگزینی (Failover): پیکربندی از طریق failover = same-tier|degrade|escalate. این تنظیم تعیین می‌کند که اگر درخواستی شکست خورد، در همان لایه بماند، به لایه‌ای ارزان‌تر سقوط کند یا به لایه‌ای گران‌تر ارتقا یابد.

عملکرد در برابر مسیریاب‌های معنایی

Wayfinder-Router هدفش کسب بالاترین دقت تئوریک در بنچمارک RouterBench نیست، زیرا در موارد «کوتاه اما سخت» که دشواری آن‌ها صرفاً معنایی است (مانند «صدمین عدد اول چیست؟») با چالش مواجه می‌شود.

با این حال، امتیاز این ابزار در تصمیم‌گیری‌های قطعی و زیر-میلی‌ثانیه‌ای است. در یک تست ترافیک واقعی روی مدل‌های مرزی، استفاده از ویژگی‌های واژگانی اختیاری باعث شد مهارت پیش‌فرض (a-priori skill) از ۰.۰۳۸- به ۰.۰۵۷+ برسد و در حالی که کیفیت حفظ شد، ۶۱٪ در هزینه‌ها صرفه‌جویی شود. این ابزار شفافیت کاملی را از طریق هدرهای پاسخ (x-wayfinder-router-model ، x-wayfinder-router-score و x-wayfinder-router-mode) فراهم می‌کند تا توسعه‌دهندگان دقیقاً بفهمند چرا یک درخواست به مسیر خاصی هدایت شده است.

برای کسانی که می‌خواهند بدون پیکربندی تست کنند، حالت serve --dry-run تصمیم مسیریابی را به‌جای فراخوانی مدل بازمی‌گرداند و اجازه می‌دهد توسعه‌دهندگان در ۳۰ ثانیه «حس» مسیریابی را تجربه کنند. این تغییر نشان‌دهنده حرکت به سمت مسیریابی «به اندازه کافی خوب» است. برای بخش بزرگی از ترافیک عملیاتی — مانند خلاصه‌سازی‌ها، اصلاح غلط‌های املایی و فرمت‌بندی‌های ساده — رویکرد ساختاری کفایت می‌کند تا بدون تحمیل سربار یک داور معنایی، از هزینه مدل‌های مرزی جلوگیری شود.

اگر شما یک خط لوله LLM با حجم بالا را مدیریت می‌کنید، گام بعدی بررسی لاگ‌های پرامپت است تا ببینید چه تعداد از درخواست‌های «ساده» در حال حاضر توسط گران‌ترین نقاط انتهایی شما پردازش می‌شوند.

گام بعدی شما

لاگ‌های پرامپت خود را بررسی کنید تا ببینید چند درصد از درخواست‌های «ساده» در حال حاضر توسط مدل‌های گران‌قیمت پردازش می‌شوند.
ابزار Wayfinder را در حالت dry-run اجرا کنید تا توزیع ترافیک فعلی خود را بدون هزینه بسنجید.
یک مجموعه داده کوچک از خروجی‌های «خوب» و «بد» مدل محلی خود ایجاد کنید تا کالیبراسیون دقیق‌تری داشته باشید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

سازوکار مسیریابی قطعی

ابزار ساده خط فرمان برای مسیریابی قطعی پرسش‌ها بین مدل‌های LLM محلی و میزبانی‌شده

نشانه‌های ساختاری در برابر واژگانی

یکپارچه‌سازی و استقرار

لایه محلی: سازگار با سرورهایی مثل Ollama، vLLM، LM Studio یا llama.cpp.
لایه ابری: سازگار با هر نقطه انتهایی (Endpoint) سبک OpenAI، از جمله Anthropic و Google Gemini.
مدیریت کلیدهای محرمانه: کلیدها در لحظه درخواست از متغیرهای محیطی (از طریق api_key_env) خوانده می‌شوند و هرگز روی دیسک ذخیره نمی‌شوند.

ابزار ساده خط فرمان برای مسیریابی قطعی پرسش‌ها بین مدل‌های LLM محلی و ابری

کالیبراسیون و حلقه‌های بازخورد

این ابزار حالت‌های مسیریابی مختلفی را برای نیازهای متفاوت ارائه می‌دهد:

باینری (Binary): یک آستانه واحد (مثلاً ۰.۶) مسیر را تعیین می‌کند. این مقدار را می‌توان برای یک اجرای خاص از طریق --threshold N یا متغیر محیطی WAYFINDER_ROUTER_THRESHOLD تغییر داد.
سطح‌بندی شده (Tiered): باندهای امتیازی مرتب‌شده اجازه استفاده از چندین مدل را می‌دهند؛ مثلاً مسیریابی امتیاز ۰.۰ تا ۰.۳ به Llama-3B، امتیاز ۰.۳ تا ۰.۶ به Llama-70B و امتیاز بالای ۰.۶ به Claude-Cloud.
طبقه‌بند (Classifier): یک مدل رگرسیون لجستیک چندجمله‌ای (Multinomial-logistic) که از روش قطعی L2-regularized Newton/IRLS در پایتون خالص استفاده می‌کند. این مدل معمولاً توسط دستور calibrate تولید می‌شود و نه به‌صورت دستی.

حفاظ‌های عملیاتی سطح سازمانی

فراتر از مسیریابی، این درگاه شامل چندین کنترل عملیاتی برای تضمین پایداری و پیش‌بینی‌پذیری هزینه‌هاست:

سقف بودجه: کاربران می‌توانند limit و window (روزانه/ماهانه) را برای هزینه تعیین کنند. در صورت تخطی، سیستم می‌تواند به ارزان‌ترین لایه degrade شود (تنزل یابد) یا درخواست‌ها را با خطای HTTP 402 مسدود کند.
قطع‌کننده مدار (Circuit Breakers): درگاه دارای سیستم تلاش مجدد محدود (Bounded Retries) برای شکست‌های انتقال، خطاهای ۴۲۹ و ۵xx است، در کنار یک breaker_threshold و breaker_cooldown برای هر هدف.
کش تطابق دقیق: یک حافظه موقت در RAM (به‌صورت پیش‌فرض ۶۴ مگابایت) که پاسخ‌های ذخیره‌شده را برای درخواست‌های قطعی و یکسان بازپخش می‌کند. یک پاسخ کش‌شده با هدر x-wayfinder-router-cache: hit علامت‌گذاری می‌شود.
کلیدهای API مجازی: ایجاد کلیدهای هش‌شده SHA-256 از طریق wayfinder-router keys new. این کلیدها امکان ردیابی هزینه (Attribution)، محدودیت نرخ به‌ازای هر کلید و لیست‌های مجاز مدل (Allowlists) را فراهم می‌کنند تا کاربران را به لایه‌های خاصی محدود کنند.
محدودیت نرخ (Rate Limiting): سقف‌های RPM و TPM در سطح درگاه که در صورت تخطی، خطای ۴۲۹ را همراه با هدر Retry-After بازمی‌گردانند.
استراتژی‌های جایگزینی (Failover): پیکربندی از طریق failover = same-tier|degrade|escalate. این تنظیم تعیین می‌کند که اگر درخواستی شکست خورد، در همان لایه بماند، به لایه‌ای ارزان‌تر سقوط کند یا به لایه‌ای گران‌تر ارتقا یابد.

عملکرد در برابر مسیریاب‌های معنایی

گام بعدی شما

لاگ‌های پرامپت خود را بررسی کنید تا ببینید چند درصد از درخواست‌های «ساده» در حال حاضر توسط مدل‌های گران‌قیمت پردازش می‌شوند.
ابزار Wayfinder را در حالت dry-run اجرا کنید تا توزیع ترافیک فعلی خود را بدون هزینه بسنجید.
یک مجموعه داده کوچک از خروجی‌های «خوب» و «بد» مدل محلی خود ایجاد کنید تا کالیبراسیون دقیق‌تری داشته باشید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Wayfinder-Router: حذف کامل تأخیر و هزینه با صفر فراخوانی مدل

سازوکار مسیریابی قطعی

نشانه‌های ساختاری در برابر واژگانی

یکپارچه‌سازی و استقرار

کالیبراسیون و حلقه‌های بازخورد

حفاظ‌های عملیاتی سطح سازمانی

عملکرد در برابر مسیریاب‌های معنایی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Wayfinder-Router: حذف کامل تأخیر و هزینه با صفر فراخوانی مدل

سازوکار مسیریابی قطعی

نشانه‌های ساختاری در برابر واژگانی

یکپارچه‌سازی و استقرار

کالیبراسیون و حلقه‌های بازخورد

حفاظ‌های عملیاتی سطح سازمانی

عملکرد در برابر مسیریاب‌های معنایی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Wayfinder-Router: حذف کامل تأخیر و هزینه با صفر فراخوانی مدل

سازوکار مسیریابی قطعی

نشانه‌های ساختاری در برابر واژگانی

یکپارچه‌سازی و استقرار

کالیبراسیون و حلقه‌های بازخورد

حفاظ‌های عملیاتی سطح سازمانی

عملکرد در برابر مسیریاب‌های معنایی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Wayfinder-Router: حذف کامل تأخیر و هزینه با صفر فراخوانی مدل

سازوکار مسیریابی قطعی

نشانه‌های ساختاری در برابر واژگانی

یکپارچه‌سازی و استقرار

کالیبراسیون و حلقه‌های بازخورد

حفاظ‌های عملیاتی سطح سازمانی

عملکرد در برابر مسیریاب‌های معنایی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران