هزینهٔ واقعی هوش مصنوعی صوتی برای آژانس‌ها: تفاوت نرخ تبلیغاتی و قیمت نهایی

اگر امروز بر اساس نرخ‌های تبلیغاتی پلتفرم‌های صوتی قرارداد می‌بندید، احتمالاً سود خود را به جیب تامین‌کنندگان زیرساخت می‌دهید. باید بدانید که تفاوت میان «قیمت پلتفرم» و «هزینه نهایی استنتاج»، می‌تواند تمام حاشیه سود یک پروژه را ببلعد.

بسیاری از مدیران آژانس‌ها تصور می‌کنند هزینه یک عامل صوتی تنها همان رقمی است که در صفحه قیمت Vapi می‌بینند؛ اما واقعیت این است که این نرخ تنها یک تکه از پازل است. همان‌طور که در تحلیل قبلی ما درباره‌ی مدل‌های استدلالی اشاره کردیم، پیچیدگی در لایه استنتاج همواره هزینه‌های پنهانی دارد. در بازار هوش مصنوعی صوتی، این پیچیدگی به شکل «مشکل ۵ فاکتوری» ظاهر می‌شود: شما باید به طور جداگانه به پلتفرم، مدل زبانی، سیستم تبدیل متن به گفتار و سرویس تلفنی پول پرداخت کنید.

طبق گزارش‌های تحلیل بازار در سال ۲۰۲۶، بازار جهانی عامل‌های صوتی تا سال ۲۰۳۴ به ۴۷.۵ میلیارد دلار خواهد رسید. با این حال، سرمایه‌های خطرپذیر بیشتر روی زیرساخت‌ها سرمایه‌گذاری کرده‌اند تا روی ابزارهایی که آژانس‌های اجرایی برای مدیریت مشتریان خود نیاز دارند. این شکاف باعث شده آژانس‌ها مجبور شوند خودشان پورتال‌های پرداخت و مدیریت مشتری را بسازند تا ورشکست نشوند.

Vapi و Retell در واقع تامین‌کننده زیرساخت API هستند. آن‌ها یک لایه صوتی قابل برنامه‌نویسی ارائه می‌دهند که برای تیم‌های مهندسی عالی است، اما برای یک آژانس کامل نیست. اگر از این‌ها استفاده کنید، باید CRM را دستی وصل کنید و صورت‌حساب‌ها را جداگانه مدیریت کنید.

Synthflow در ابتدا این خلاء را با یک سازنده بدون کد (No-code) پر کرد. اما بر اساس مستندات شرکت، پس از جذب ۲۰ میلیون دلار سرمایه در سال ۲۰۲۵، این پلتفرم در ژوئن ۲۰۲۶ تغییر مسیر داد و روی سازمان‌های بزرگ (BPO) تمرکز کرد. اکنون کاربران جدید باید با قراردادهای سالانه حدود ۳۰,۰۰۰ دلار وارد شوند و پلن‌های ارزان‌قیمت آژانسی حذف شده‌اند.

در مقابل، Hermes از ابتدا برای آژانس‌ها ساخته شده است. این پلتفرم دارای محیط‌های کاری مجزا برای هر مشتری، قابلیت برند سفید (White-label) — یعنی مشتری هرگز نام Hermes را نمی‌بیند — و CRM داخلی است. هزینه در Hermes به صورت تخت (Flat-rate) است و از ۱۴۹ دلار در ماه شروع می‌شود.

بیایید اقتصاد واقعی را با مثال ۲۰۰۰ دقیقه تماس در ماه بررسی کنیم. در Vapi، شما با «مشکل ۵ فاکتور» روبرو هستید:

لایه پلتفرم: ۰.۰۵ دلار
مدل زبانی بزرگ (LLM) — مثل کتابخانه‌داری که میلیاردها صفحه را خوانده و حالا با همان لحن جواب می‌دهد — (مثلاً GPT-4o): ۰.۰۳ تا ۰.۱۰ دلار
تبدیل متن به گفتار (TTS) — مثل کسی که متن را می‌گیرد و با احساسات انسانی می‌خواند — (مثلاً ElevenLabs): ۰.۰۲ تا ۰.۰۵ دلار
تلفنی (Twilio): ۰.۰۱ تا ۰.۰۲ دلار
جمع کل: ۰.۲۳ تا ۰.۳۳ دلار برای هر دقیقه

این یعنی برای ۲۰۰۰ دقیقه، شما ۴۶۰ تا ۶۶۰ دلار فقط هزینه مصرف می‌پردازید. Retell نیز شرایط مشابهی دارد؛ هرچند هزینه پلتفرم را نمی‌گیرد، اما هزینه نهایی استنتاج (Inference) — لحظه‌ای که مدل واقعاً جواب تولید می‌کند و مثل خودِ آشپزی است نه دوره‌ی آموزش — بین ۰.۱۳ تا ۰.۳۱ دلار قرار می‌گیرد.

Hermes تنها پلتفرمی است که یک قیمت تخت برای همه موارد (STT، LLM، TTS و تلفنی) دارد:

پلن Starter: ۱۴۹ دلار (۳۰۰ دقیقه)
پلن Business: ۳۹۹ دلار (۱۰۰۰ دقیقه)
پلن Agency: ۶۹۹ دلار (۲۰۰۰ دقیقه)

پایداری پلتفرم مستقیماً روی حفظ مشتری اثر می‌گذارد. طبق داده‌های IsDown، پلتفرم Vapi در بازه ۹۰ روزه منتهی به ژوئن ۲۰۲۶، ۱۸ حادثه ثبت کرده که ۵ مورد آن قطعی‌های شدید بود. در ۲۱ مه ۲۰۲۶، سرویس‌های آمریکا به مدت ۴ ساعت و ۷ دقیقه به دلیل اشباع اتصالات دیتابیس از دسترس خارج شدند. برخی کاربران در Trustpilot از خسارت ۵۰,۰۰۰ دلاری به دلیل باگ‌های این پلتفرم خبر داده‌اند.

Retell شفافیت بیشتری دارد و صفحه وضعیت (Status Page) فعال می‌کند، اما Synthflow در سال ۲۰۲۶ با گزارش‌های متعددی در G2 درباره قطع شدن تماس‌ها در میان گفتگو و «دقایق شبح‌وار» (ثبت هزینه بدون تماس) مواجه شده است.

در مورد برند سفید (White-label)، تفاوت میان یک لوگو در ساب‌دومین با یک معماری نامرئی وجود دارد. در Vapi و Retell، شما باید رابط کاربری مشتری را خودتان بسازید. در Hermes، مشتری به پورتالی با برند شما وارد می‌شود و حتی تیکت‌های پشتیبانی نیز در فضای کاری شما می‌ماند.

از نظر تأخیر (Latency) — که همان فاصله زمانی بین پایان حرف کاربر و شروع جواب مدل است — رقابت شدیدی است. در حالی که Vapi ادعای ۵۰۰ تا ۶۰۰ میلی‌ثانیه دارد، تست‌های مستقل عدد ۸۰۰ میلی‌ثانیه را نشان می‌دهند. Hermes با بهینه‌سازی مسیر استنتاج، هدف خود را زیر ۷۰۰ میلی‌ثانیه قرار داده است.

انتخاب پشته (Stack) شما باید بر اساس اندازه آژانس باشد:

تک‌نفره یا نوپا (۰-۳ مشتری): زمان خود را تلف مهندسی نکنید. پلن ۱۴۹ دلاری Hermes سریع‌ترین راه رسیدن به درآمد است.
آژانس در حال رشد (۳-۱۰ مشتری): برای جلوگیری از تحلیل رفتن سود در اثر فاکتورهای متعدد، پلن Business پیشنهاد می‌شود. برای بهینه‌سازی این لایه‌ها، انتخاب میان روش‌های پرامپت، RAG و Fine-tuning نقشی کلیدی در کاهش هزینه‌ها و افزایش دقت مدل دارد.
آژانس تثبیت‌شده (۱۰-۲۰ مشتری): پلن Agency با ۲۰ فضای کاری مجزا، هزینه‌های عملیاتی را مدیریت می‌کند.
تیم‌های توسعه‌محور: اگر نیاز دارید مدل زبانی را در هر مرحله از تماس عوض کنید، API-first بودن Vapi و Retell انعطاف بیشتری می‌دهد.

چرخش استراتژیک Synthflow به سمت سازمان‌های بزرگ (BPO)، هشدار مهمی برای آژانس‌هاست. همان‌طور که در اوایل ۲۰۲۶ شاهد افزایش ۷ تا ۱۰ برابری قیمت در Voicerr بودیم، پلتفرم‌ها وقتی مشتریان گران‌قیمت‌تر پیدا می‌کنند، آژانس‌ها را کنار می‌زنند.

گام بعدی شما

اگر از Vapi یا Retell استفاده می‌کنید، هزینه واقعی هر دقیقه (All-in cost) را با جمع زدن فاکتورهای مدل و تلفنی محاسبه کنید.
وضعیت پایداری (Uptime) پلتفرم خود را در ۹۰ روز گذشته بررسی کنید تا ریسک ریزش مشتری را بسنجید.
معماری برند سفید خود را ارزیابی کنید؛ آیا نام تامین‌کننده در ایمیل‌ها یا پیام‌های خطا ظاهر می‌شود؟

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

بیایید اقتصاد واقعی را با مثال ۲۰۰۰ دقیقه تماس در ماه بررسی کنیم. در Vapi، شما با «مشکل ۵ فاکتور» روبرو هستید:

لایه پلتفرم: ۰.۰۵ دلار
مدل زبانی بزرگ (LLM) — مثل کتابخانه‌داری که میلیاردها صفحه را خوانده و حالا با همان لحن جواب می‌دهد — (مثلاً GPT-4o): ۰.۰۳ تا ۰.۱۰ دلار
تبدیل متن به گفتار (TTS) — مثل کسی که متن را می‌گیرد و با احساسات انسانی می‌خواند — (مثلاً ElevenLabs): ۰.۰۲ تا ۰.۰۵ دلار
تلفنی (Twilio): ۰.۰۱ تا ۰.۰۲ دلار
جمع کل: ۰.۲۳ تا ۰.۳۳ دلار برای هر دقیقه

Hermes تنها پلتفرمی است که یک قیمت تخت برای همه موارد (STT، LLM، TTS و تلفنی) دارد:

پلن Starter: ۱۴۹ دلار (۳۰۰ دقیقه)
پلن Business: ۳۹۹ دلار (۱۰۰۰ دقیقه)
پلن Agency: ۶۹۹ دلار (۲۰۰۰ دقیقه)

انتخاب پشته (Stack) شما باید بر اساس اندازه آژانس باشد:

تک‌نفره یا نوپا (۰-۳ مشتری): زمان خود را تلف مهندسی نکنید. پلن ۱۴۹ دلاری Hermes سریع‌ترین راه رسیدن به درآمد است.
آژانس در حال رشد (۳-۱۰ مشتری): برای جلوگیری از تحلیل رفتن سود در اثر فاکتورهای متعدد، پلن Business پیشنهاد می‌شود. برای بهینه‌سازی این لایه‌ها، انتخاب میان روش‌های پرامپت، RAG و Fine-tuning نقشی کلیدی در کاهش هزینه‌ها و افزایش دقت مدل دارد.
آژانس تثبیت‌شده (۱۰-۲۰ مشتری): پلن Agency با ۲۰ فضای کاری مجزا، هزینه‌های عملیاتی را مدیریت می‌کند.
تیم‌های توسعه‌محور: اگر نیاز دارید مدل زبانی را در هر مرحله از تماس عوض کنید، API-first بودن Vapi و Retell انعطاف بیشتری می‌دهد.

گام بعدی شما

اگر از Vapi یا Retell استفاده می‌کنید، هزینه واقعی هر دقیقه (All-in cost) را با جمع زدن فاکتورهای مدل و تلفنی محاسبه کنید.
وضعیت پایداری (Uptime) پلتفرم خود را در ۹۰ روز گذشته بررسی کنید تا ریسک ریزش مشتری را بسنجید.
معماری برند سفید خود را ارزیابی کنید؛ آیا نام تامین‌کننده در ایمیل‌ها یا پیام‌های خطا ظاهر می‌شود؟

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

هزینهٔ واقعی هوش مصنوعی صوتی برای آژانس‌ها: تفاوت نرخ تبلیغاتی و قیمت نهایی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

هزینهٔ واقعی هوش مصنوعی صوتی برای آژانس‌ها: تفاوت نرخ تبلیغاتی و قیمت نهایی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

هزینهٔ واقعی هوش مصنوعی صوتی برای آژانس‌ها: تفاوت نرخ تبلیغاتی و قیمت نهایی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

هزینهٔ واقعی هوش مصنوعی صوتی برای آژانس‌ها: تفاوت نرخ تبلیغاتی و قیمت نهایی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران