یک توسعهدهنده که روزانه هزاران درخواست به مدلهای مختلف میفرستد، میداند که هزینه استنتاج (Inference) — لحظهای که مدل واقعاً جواب تولید میکند و شبیه خودِ آشپزی است، نه دورهی آموزش آشپز — میتواند بهسرعت بودجه پروژه را تخلیه کند. حالا Wayfinder-Router وارد میدان شده تا این هزینه را با یک تغییر ساده در منطق مسیریابی به حداقل برساند.
به نقل از مستندات این پروژه، این ابزار که در ۲۸ ژوئن ۲۰۲۶ عرضه شد، اجازه میدهد ترافیک بین مدلهای زبانی بزرگ (LLM) — مثل کتابخانهداری که میلیاردها صفحه را خوانده و حالا با همان لحن کتابها جواب میدهد — محلی و ابری تقسیم شود، بدون اینکه نیاز باشد برای هر تصمیم، هزینه یک مدل «داور» پرداخت شود. برخلاف مسیریابهای معنایی که برای تصمیمگیری نیاز به یک مدل کوچکتر یا API میخواهند، Wayfinder بر اساس «شکل» پرامپت، امتیاز پیچیدگی را در چند میکروثانیه محاسبه میکند.
اکثر سیستمهای مسیریابی فعلی برای تصمیمگیری درباره اینکه کدام مدل باید یک پرسوجو را مدیریت کند، به یک طبقهبندی آموزشدیده (Trained Classifier) یا یک API ابری متکی هستند. این فرآیند اغلب یک «مالیات» اضافی به شکل توکنهای بیشتر و رفتوبرگشتهای شبکه (Network Round-trips) ایجاد میکند، پیش از آنکه پاسخ واقعی تولید شود. همانطور که در تحلیل قبلی ما دربارهی کاهش هزینههای استنتاج در پلتفرمهایی مثل DeepInfra اشاره کردیم (که هزینهها را ۵ تا ۲۷ برابر کمتر از OpenAI میکند)، Wayfinder لایهی دوم یعنی «مدیریت هوشمند ترافیک» را هدف قرار داده تا مدلهای گرانقیمت مرزی (Frontier Models) فقط زمانی فراخوانی شوند که پرامپت واقعاً به آنها نیاز داشته باشد.
سازوکار مسیریابی قطعی
Wayfinder-Router از تله «فراخوانی مدل برای تصمیمگیری» میگریزد. به جای اینکه از یک LLM بپرسد «آیا این سؤال سخت است؟»، ساختار متن را اسکن میکند. این ابزار «شکل» پرامپت را میخواند؛ مواردی مثل طول متن، تیترها، لیستها و کدهای موجود را بررسی کرده و در کنار آنها نشانههای دشواری در نحوه بیان (Wording) را تحلیل میکند. این تحلیل در نهایت به یک امتیاز پیچیدگی بین ۰.۰ تا ۱.۰ تبدیل میشود.

از آنجا که این فرآیند کاملاً آفلاین و قطعی (Deterministic) است، تصمیمات برای پرامپتهای مشابه همیشه یکسان و رایگان است. هیچ نیاز به استفاده از APIهای ابری، طبقهبندهای آموزشدیده یا مدلهای داور برای تعیین مسیر نیست و در نتیجه هیچ درخواست شبکهای برای تصمیمگیری در مورد مقصد پرامپت ارسال نمیشود.
نشانههای ساختاری در برابر واژگانی
طبق گزارشهای فنی این ابزار، Wayfinder میتواند نشانههای واژگانی (Lexical Cues) مثل کلمات «اثبات» (proofs)، «ریاضی» (math) و «محدودیتهای سخت» (hard constraints) را شناسایی کند. با این حال، اینها ویژگیهای اختیاری (Opt-in) هستند. یک تست دوپلای (double-blind) روی پرامپتهایی که بهصورت مستقل نوشته شده بودند، نشان داد که نشانههای واژگانی تنها حدود ۲۰٪ از پرامپتهای دشوارِ دیدهنشده را شناسایی میکنند و در بسیاری از موارد حتی از یک معیار سادهی «شمارش کلمات» (Word-count baseline) ضعیفتر عمل کردند.
به همین دلیل، چون اثرگذاری واژگانی همیشه قابل تعمیم نیست، این ویژگیها بهصورت پیشفرض غیرفعال هستند. به کاربران توصیه میشود که وزن این نشانهها را تنها در صورتی افزایش دهند که آنها را با واژگان خاص ترافیک خود کالیبره کرده باشند. اگر پیچیدگی یک پرامپت صرفاً معنایی باشد — مثلاً یک تکه کد ظریف یا سؤالی که در ظاهر بیخطر است اما پاسخ سختی دارد، مانند «صدمین عدد اول چیست؟» — هیچ نشانه ساختاری وجود ندارد. در این موارد خاص، یک مسیریاب معنایی (Semantic Router) عملکرد بهتری خواهد داشت.
یکپارچهسازی و استقرار
این سامانه بهعنوان یک درگاه (Gateway) شفاف عمل میکند که با پروتکل API شرکت OpenAI صحبت میکند. کاربر کافی است base_url کلاینت خود را به آدرس درگاه Wayfinder (معمولاً http://localhost:8088/v1) تغییر دهد تا منطق مسیریابی بهصورت نامرئی اجرا شود.
- لایه محلی: سازگار با سرورهایی مثل Ollama، vLLM، LM Studio یا llama.cpp.
- لایه ابری: سازگار با هر نقطه انتهایی (Endpoint) سبک OpenAI، از جمله Anthropic و Google Gemini.
- مدیریت کلیدهای محرمانه: کلیدها در لحظه درخواست از متغیرهای محیطی (از طریق
api_key_env) خوانده میشوند و هرگز روی دیسک ذخیره نمیشوند.
کاربران همچنین میتوانند از یک دستور اختیاری api_key_cmd برای استخراج کلیدها از صندوقچههای امنیتی (Vaults) در هنگام شروع برنامه استفاده کنند؛ ابزارهایی مانند 1Password (op read)، macOS Keychain (security)، ابزار secret-tool در لینوکس، AWS Secrets Manager یا Doppler. در این حالت، کلید تنها در حافظه (RAM) نگه داشته میشود.

برای کسانی که از IDEهای حرفهای یا ایجنتها استفاده میکنند، این درگاه مستقیماً با ابزارهایی مثل Cursor، Continue و LangChain یکپارچه میشود. همچنین از سایر چارچوبهای ایجنتی مانند LlamaIndex، CrewAI، AutoGen، OpenAI Agents SDK و Vercel AI SDK پشتیبانی میکند. این یکپارچگی در کنارِ بهینهسازی مستندات برای ماشینها که پیشتر بررسی کردیم، میتواند کارایی عاملهای هوشمند را در مدیریت ابزارها بهشدت افزایش دهد. حتی یک آداپتور ترجمه برای Claude Code در نظر گرفته شده است، زیرا این ابزار معمولاً از Messages API شرکت Anthropic به جای فرمت OpenAI استفاده میکند. این قابلیت به Claude Code اجازه میدهد از طریق یک آداپتور POST /v1/messages که بین این دو API ترجمه انجام میدهد (شامل پشتیبانی از استریمینگ و استفاده از ابزارها)، ترافیک خود را از طریق Wayfinder مسیریابی کند.
کالیبراسیون و حلقههای بازخورد
یکی از نقاط قوت اصلی این ابزار، دستور calibrate است. کاربران میتوانند یک مجموعهداده JSONL برچسبگذاریشده از ترافیک واقعی خود (به فرمت {"text": ..., "label": ...}) به آن بدهند تا نقطه برش (Cut) بهینه بین مدلهای محلی و ابری پیدا شود.
این ابزار حالتهای مسیریابی مختلفی را برای نیازهای متفاوت ارائه میدهد:
- باینری (Binary): یک آستانه واحد (مثلاً ۰.۶) مسیر را تعیین میکند. این مقدار را میتوان برای یک اجرای خاص از طریق
--threshold Nیا متغیر محیطیWAYFINDER_ROUTER_THRESHOLDتغییر داد. - سطحبندی شده (Tiered): باندهای امتیازی مرتبشده اجازه استفاده از چندین مدل را میدهند؛ مثلاً مسیریابی امتیاز ۰.۰ تا ۰.۳ به Llama-3B، امتیاز ۰.۳ تا ۰.۶ به Llama-70B و امتیاز بالای ۰.۶ به Claude-Cloud.
- طبقهبند (Classifier): یک مدل رگرسیون لجستیک چندجملهای (Multinomial-logistic) که از روش قطعی L2-regularized Newton/IRLS در پایتون خالص استفاده میکند. این مدل معمولاً توسط دستور
calibrateتولید میشود و نه بهصورت دستی.
برای اصلاح این مرزها، دستور onboard به کاربران اجازه میدهد پرامپتها را در یک مرورگر بهصورت A/B تست کنند. با قضاوت در این مورد که آیا خروجی محلی «به اندازه کافی خوب» بوده است یا خیر، کاربران یک لاگ بازخورد ایجاد میکنند که بهعنوان مجموعهداده کالیبراسیون عمل میکند. پس از استقرار در محیط عملیاتی، نقطه انتهایی /v1/feedback به کاربران اجازه میدهد قضاوتهای خود (لایک/دیسلایک) را ارسال کنند که میتواند برای اجرای دورهای recalibrate از طریق cron یا k8s CronJobs استفاده شود.
حفاظهای عملیاتی سطح سازمانی
فراتر از مسیریابی، این درگاه شامل چندین کنترل عملیاتی برای تضمین پایداری و پیشبینیپذیری هزینههاست:
- سقف بودجه: کاربران میتوانند
limitوwindow(روزانه/ماهانه) را برای هزینه تعیین کنند. در صورت تخطی، سیستم میتواند به ارزانترین لایهdegradeشود (تنزل یابد) یا درخواستها را با خطای HTTP 402 مسدود کند. - قطعکننده مدار (Circuit Breakers): درگاه دارای سیستم تلاش مجدد محدود (Bounded Retries) برای شکستهای انتقال، خطاهای ۴۲۹ و ۵xx است، در کنار یک
breaker_thresholdوbreaker_cooldownبرای هر هدف. - کش تطابق دقیق: یک حافظه موقت در RAM (بهصورت پیشفرض ۶۴ مگابایت) که پاسخهای ذخیرهشده را برای درخواستهای قطعی و یکسان بازپخش میکند. یک پاسخ کششده با هدر
x-wayfinder-router-cache: hitعلامتگذاری میشود. - کلیدهای API مجازی: ایجاد کلیدهای هششده SHA-256 از طریق
wayfinder-router keys new. این کلیدها امکان ردیابی هزینه (Attribution)، محدودیت نرخ بهازای هر کلید و لیستهای مجاز مدل (Allowlists) را فراهم میکنند تا کاربران را به لایههای خاصی محدود کنند. - محدودیت نرخ (Rate Limiting): سقفهای RPM و TPM در سطح درگاه که در صورت تخطی، خطای ۴۲۹ را همراه با هدر
Retry-Afterبازمیگردانند. - استراتژیهای جایگزینی (Failover): پیکربندی از طریق
failover = same-tier|degrade|escalate. این تنظیم تعیین میکند که اگر درخواستی شکست خورد، در همان لایه بماند، به لایهای ارزانتر سقوط کند یا به لایهای گرانتر ارتقا یابد.
عملکرد در برابر مسیریابهای معنایی
Wayfinder-Router هدفش کسب بالاترین دقت تئوریک در بنچمارک RouterBench نیست، زیرا در موارد «کوتاه اما سخت» که دشواری آنها صرفاً معنایی است (مانند «صدمین عدد اول چیست؟») با چالش مواجه میشود.
با این حال، امتیاز این ابزار در تصمیمگیریهای قطعی و زیر-میلیثانیهای است. در یک تست ترافیک واقعی روی مدلهای مرزی، استفاده از ویژگیهای واژگانی اختیاری باعث شد مهارت پیشفرض (a-priori skill) از ۰.۰۳۸- به ۰.۰۵۷+ برسد و در حالی که کیفیت حفظ شد، ۶۱٪ در هزینهها صرفهجویی شود. این ابزار شفافیت کاملی را از طریق هدرهای پاسخ (x-wayfinder-router-model ، x-wayfinder-router-score و x-wayfinder-router-mode) فراهم میکند تا توسعهدهندگان دقیقاً بفهمند چرا یک درخواست به مسیر خاصی هدایت شده است.
برای کسانی که میخواهند بدون پیکربندی تست کنند، حالت serve --dry-run تصمیم مسیریابی را بهجای فراخوانی مدل بازمیگرداند و اجازه میدهد توسعهدهندگان در ۳۰ ثانیه «حس» مسیریابی را تجربه کنند. این تغییر نشاندهنده حرکت به سمت مسیریابی «به اندازه کافی خوب» است. برای بخش بزرگی از ترافیک عملیاتی — مانند خلاصهسازیها، اصلاح غلطهای املایی و فرمتبندیهای ساده — رویکرد ساختاری کفایت میکند تا بدون تحمیل سربار یک داور معنایی، از هزینه مدلهای مرزی جلوگیری شود.
اگر شما یک خط لوله LLM با حجم بالا را مدیریت میکنید، گام بعدی بررسی لاگهای پرامپت است تا ببینید چه تعداد از درخواستهای «ساده» در حال حاضر توسط گرانترین نقاط انتهایی شما پردازش میشوند.
گام بعدی شما
- لاگهای پرامپت خود را بررسی کنید تا ببینید چند درصد از درخواستهای «ساده» در حال حاضر توسط مدلهای گرانقیمت پردازش میشوند.
- ابزار Wayfinder را در حالت
dry-runاجرا کنید تا توزیع ترافیک فعلی خود را بدون هزینه بسنجید. - یک مجموعه داده کوچک از خروجیهای «خوب» و «بد» مدل محلی خود ایجاد کنید تا کالیبراسیون دقیقتری داشته باشید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو