کاهش هزینه‌های مدل‌های پیشرو با مسیریابی محلی در Manifest چگونه است؟

برنامه‌نویسان اکنون می‌توانند بارهای کاری تولیدی هوش مصنوعی را بدون پرداخت هزینه برای هر توکن اجرا کنند. Manifest را تصور کنید؛ یک لایه مسیریابی متن‌باز که به تیم‌ها اجازه می‌دهد درخواست‌های غیرحیاتی را از مدل‌های پیشرو و گران‌قیمت دور کرده و به مجموعه‌ای منتخب از گزینه‌های رایگان هدایت کنند.

بسیاری از تیم‌های هوش مصنوعی به این دلیل هزینه اضافی پرداخت می‌کنند که می‌ترسند با تغییر مدل از یک مدل سطح اول (Top-tier) به یک مدل کوچک‌تر، کیفیت پاسخ‌ها افت کند. عبارت «رایگان» اغلب در ذهن توسعه‌دهندگان با «کیفیت پایین‌تر» مترادف است، بنابراین تیم‌ها فقط برای اطمینان خاطر، هزینه هر درخواست را می‌پردازند. در واقعیت، وظایف پایه مانند خلاصه‌سازی تیکت‌ها، استخراج فیلدها و طبقه‌بندی پیام‌ها، نتایج تقریباً یکسانی را در اندازه‌های مختلف مدل‌ها ارائه می‌دهند. یک مدل سریع 8B و یک مدل پیشرو، برای این وظایف پاسخ یکسانی تولید می‌کنند، اما تنها یکی از آن‌ها در صورت‌حساب نهایی ظاهر می‌شود. Manifest این تضاد را با خودکارسازی تصمیم مسیریابی بر اساس پیچیدگی درخواست حل می‌کند. این رویکرد به ویژه در مواردی که مدل‌های کوچک در مواجهه با پیچیدگی‌های عملیاتی دچار چالش می‌شوند، اهمیت می‌یابد؛ همان‌طور که بررسی عملکرد مدل Gemma 4 2B در توابع پیچیده نشان داد، تشخیص مرز بین کارهای ساده و پیچیده کلید بهینه‌سازی است.

طبق اعلام سازندگان این پروژه، Manifest تا تاریخ ۲ ژوئیه ۲۰۲۶، فهرستی از بیش از ۱۰۰ مدل رایگان از ده‌ها ارائه‌دهنده مختلف را به‌روزرسانی می‌کند. این کاتالوگ ایستا نیست؛ بلکه یک لیست متن‌باز است که هر روز یک‌بار همگام‌سازی (Sync) می‌شود تا ظهور و disappearance لایه‌های رایگان را ردیابی کند. این مدل‌ها در دو دسته‌بندی متمایز قرار می‌گیرند:

استنتاج محلی

استنتاج (Inference) — لحظه‌ای که مدل واقعاً جواب تولید می‌کند، شبیه خودِ آشپزی است نه دوره‌ی آموزش آشپز — بر روی سخت‌افزار خصوصی، هزینه‌ی هر توکن را حذف کرده و حریم خصوصی داده‌ها را تضمین می‌کند. Manifest سرورهای محلی را دقیقاً به همان روشی متصل می‌کند که به هر ارائه‌دهنده دیگر متصل می‌شود و از موارد زیر پشتیبانی می‌کند:

Ollama
LM Studio
llama.cpp
هر سرور دیگری که با استاندارد OpenAI سازگار باشد.

مدل‌های محلی منحصر‌به‌فرد هستند زیرا هزینه نهایی آن‌ها تنها به برق مصرفی محدود می‌شود. از آنجایی که پرامپت (Prompt) هرگز دستگاه را ترک نمی‌کند، کل فرآیند کاملاً خصوصی است. برای کسانی که به دنبال پیاده‌سازی کامل این ساختار هستند، راهنمای استقرار محلی Qwen3-Coder با استفاده از Ollama ابزارهای لازم برای رسیدن به هزینه صفر توکن را فراهم می‌کند. علاوه بر این، هیچ محدودیت نرخی (Rate Limit) وجود ندارد زیرا شما سهمیه خود را با غریبه‌ها شریک نمی‌شوید. نکته کلیدی این است که شما به سخت‌افزار نیاز دارید و یک مدل محلی کوچک، رقیب مدل Opus نیست؛ به همین دلیل نباید سخت‌ترین کارها را به آن سپرد.

لایه‌های رایگان ابری

طبق گزارش مستندات Manifest، این سیستم چندین ارائه‌دهنده ابری رایگان با عملکرد بالا را ردیابی می‌کند که بسیاری از آن‌ها برای شروع نیازی به کارت اعتباری ندارند. نقاط برجسته عبارتند از:

Groq: ارائه مدل‌های Llama 3.3 70B و Llama 3.1 8B بر روی سخت‌افزارهای فوق‌سریع.
Cerebras: توانایی ارسال تقریباً ۲۶۰۰ توکن در ثانیه.
OpenRouter: ارائه بیش از ۳۵ مدل با پسوند ':free'، شامل DeepSeek R1 و Qwen3 Coder.
NVIDIA NIM: granting access به بیش از ۱۰۰ مدل از طریق برنامه توسعه‌دهندگان خود.
لایه‌های رایگان Google Gemini 2.5 Flash و برنامه آزمایشی (Experiment plan) شرکت Mistral.

مسیریابی هوشمند: ترکیب مدل‌های رایگان محلی و ابری بدون هزینه

مسیریابی به این دلیل ضروری است که لایه‌های رایگان با محدودیت‌های عملیاتی همراه هستند. بسیاری از ارائه‌دهندگان کاربران را به چند ده درخواست در دقیقه یا چند صد درخواست در روز محدود می‌کنند. برخی ارائه‌دهندگان همچنین پنجره متنی (Context Window) — یعنی میزان متنی که مدل هم‌زمان در ذهن نگه می‌دارد، شبیه میز کاری که فقط جای چند ورق دارد — را در طرح رایگان محدود می‌کنند. در این فضای رقابتی، تقابل OpenModels و OpenRouter نشان می‌دهد که شفافیت در هزینه‌ها و دسترسی به مدل‌ها چگونه به ابزار اصلی رقابت در سال ۲۰۲۶ تبدیل شده است.

حریم خصوصی داده‌ها و حقوق استفاده نیز بسته به ارائه‌دهنده متفاوت است:

گوگل صراحتاً ذکر می‌کند که پرامپت‌های رایگان Gemini ممکن است برای بهبود محصولاتش مورد استفاده قرار گیرند.
برخی از کلیدهای آزمایشی (Trial keys) برای کارهای تجاری مجاز نیستند.

موتور مسیریابی Manifest این هشدارها را روی هر ارائه‌دهنده علامت‌گذاری می‌کند. این امر تضمین می‌کند که کارهای ساده و غیرحساس به لایه‌های رایگان بروند، در حالی که هر مورد خصوصی در یک مدل محلی باقی بماند تا هیچ داده‌ای از دستگاه خارج نشود.

این رویکرد، زیرساخت هوش مصنوعی را از وابستگی به یک مدل واحد به یک استراتژی لایه‌بندی شده تبدیل می‌کند. با تنظیم مدل‌ها روی حالت 'auto' از طریق یک نقطه اتصال (Endpoint) واحد، توسعه‌دهندگان دیگر اپلیکیشن‌های خود را مستقیماً به ارائه‌دهندگان منفرد مانند Groq یا Ollama متصل نمی‌کنند. Manifest هر درخواست را امتیازدهی کرده و مسیریابی می‌کند. توسعه‌دهندگان می‌توانند یک مدل محلی یا رایگان را به لایه‌های «ساده» و «استاندارد» اختصاص دهند یا آن‌ها را به عنوان جایگزین (Fallback) لیست کنند، تا ترافیک آسان بدون نیاز به تغییر مجدد در کد، هزینه‌ای ایجاد نکند.

این سیستم یک جعبه سیاه نیست. هر پاسخ حاوی سرآیندهایی (Headers) است که نشان می‌دهد کدام مدل پاسخ داده، در کدام لایه قرار گرفته، کدام ارائه‌دهنده آن را سرویس داده و چرا این مسیر انتخاب شده است. این شفافیت به تیم‌ها اجازه می‌دهد دقیقاً ببینند چه مقدار از ترافیک آن‌ها به صورت رایگان اجرا شده است.

برای کاربر نهایی یا توسعه‌دهنده، این بدان معناست که صورت‌حساب دیگر منعکس‌کننده کل ترافیک نیست، بلکه تنها ترافیکی است که واقعاً نیاز به یک مدل پیشرو داشته است. زیرساخت از یک هزینه ثابت به ازای هر درخواست، به یک سیستم پویا تبدیل می‌شود که در آن تنها سخت‌ترین مسائل هزینه دارند. محدودیت‌های هر گزینه دیگر مشکل‌ساز نیستند زیرا هر درخواست جایی فرود می‌آید که بهترین تناسب را با آن داشته باشد.

برای شروع بهینه‌سازی هزینه‌ها، توسعه‌دهندگان می‌توانند کاتالوگ زنده را بررسی کرده و اولین ارائه‌دهنده رایگان خود را در manifest.build/free-models متصل کنند.

گام بعدی شما

فهرست مدل‌های رایگان را در manifest.build/free-models بررسی کنید.
درخواست‌های ساده (مانند استخراج داده) را به مدل‌های محلی یا رایگان منتقل کنید.
برای داده‌های حساس، مسیرهای ابری رایگان را حذف و فقط از استنتاج محلی استفاده کنید.

اما داستان سخت‌افزاری این تحولات حتی شگفت‌انگیزتر است؛ به بررسی ما درباره‌ی تراشه‌های Blackwell و اثر آن‌ها بر هزینه استنتاج مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

استنتاج محلی

Ollama
LM Studio
llama.cpp
هر سرور دیگری که با استاندارد OpenAI سازگار باشد.

لایه‌های رایگان ابری

Groq: ارائه مدل‌های Llama 3.3 70B و Llama 3.1 8B بر روی سخت‌افزارهای فوق‌سریع.
Cerebras: توانایی ارسال تقریباً ۲۶۰۰ توکن در ثانیه.
OpenRouter: ارائه بیش از ۳۵ مدل با پسوند ':free'، شامل DeepSeek R1 و Qwen3 Coder.
NVIDIA NIM: granting access به بیش از ۱۰۰ مدل از طریق برنامه توسعه‌دهندگان خود.
لایه‌های رایگان Google Gemini 2.5 Flash و برنامه آزمایشی (Experiment plan) شرکت Mistral.

مسیریابی هوشمند: ترکیب مدل‌های رایگان محلی و ابری بدون هزینه

حریم خصوصی داده‌ها و حقوق استفاده نیز بسته به ارائه‌دهنده متفاوت است:

گوگل صراحتاً ذکر می‌کند که پرامپت‌های رایگان Gemini ممکن است برای بهبود محصولاتش مورد استفاده قرار گیرند.
برخی از کلیدهای آزمایشی (Trial keys) برای کارهای تجاری مجاز نیستند.

گام بعدی شما

فهرست مدل‌های رایگان را در manifest.build/free-models بررسی کنید.
درخواست‌های ساده (مانند استخراج داده) را به مدل‌های محلی یا رایگان منتقل کنید.
برای داده‌های حساس، مسیرهای ابری رایگان را حذف و فقط از استنتاج محلی استفاده کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

کاهش هزینه‌های مدل‌های پیشرو با مسیریابی محلی در Manifest چگونه است؟

استنتاج محلی

لایه‌های رایگان ابری

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

کاهش هزینه‌های مدل‌های پیشرو با مسیریابی محلی در Manifest چگونه است؟

استنتاج محلی

لایه‌های رایگان ابری

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

کاهش هزینه‌های مدل‌های پیشرو با مسیریابی محلی در Manifest چگونه است؟

استنتاج محلی

لایه‌های رایگان ابری

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

کاهش هزینه‌های مدل‌های پیشرو با مسیریابی محلی در Manifest چگونه است؟

استنتاج محلی

لایه‌های رایگان ابری

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران