سازوکار AethexAI برای حذف تأخیر صوتی با تکیه بر مدل‌های زبانی کوچک

اگر کسب‌وکاری در آفریقا یا خاورمیانه مدیریت می‌کنید، می‌دانید که حتی یک ثانیه تأخیر در تماس‌های صوتی، مشتری را می‌پراند. در این مناطق، حجم تماس‌های تجاری سه برابر شرکت‌های غربی است، اما ابزارهای صوتی فعلی در مواجهه با لهجه‌های محلی و زیرساخت‌های ضعیف شکست می‌خورند.

AethexAI برای حل این مشکل، به‌جای استفاده از مدل‌های عمومی، روی مدل زبانی کوچک (SLM) — که مثل یک لغت‌نامه جیبی تخصصی است و سریع‌تر از یک کتابخانه عظیم ورق می‌خورد — سرمایه‌گذاری کرده است. این استراتژی باعث شده شرکت اکنون روزانه ۱۷ هزار تماس را برای سازمان‌های منطقه‌ای پردازش کند.

همان‌طور که در تحلیل قبلی ما درباره‌ی استقرار هوش مصنوعی متا برای کسب‌وکارهای کوچک اشاره کردیم، نیاز به تعاملات صوتی بی‌نقص در بازارهای نوظهور همچنان پاسخ‌داده‌نشده باقی مانده است. در این مناطق، تأخیر (Latency) — یا همان فاصله بین پرسش و پاسخ که شبیه سکوت‌های آزاردهنده در تماس‌های بین‌المللی است — عامل اصلی شکست پذیرش فناوری در سطح سازمانی است.

طبق اعلام شرکت در ۳ ژوئن ۲۰۲۶، این استارت‌آپ موفق به جذب ۳ میلیون دلار سرمایه در دوره‌ی pre-seed شد که هدایت آن بر عهده‌ی 4DX Ventures بود. به نقل از گزارش TechCrunch، مدیرعامل (ماریاما دیالو) و مدیر فنی (آیولووا اودموییوا) برای حذف نوسانات شدید سیگنال در شبکه‌های تلفنی منطقه، تصمیم گرفتند ابزارهای آماده‌ای مثل Vapi یا LiveKit را کنار بگذارند و لایه‌ی ارتباطی خودشان را از صفر بسازند.

جزئیات فنی این معماری شامل موارد زیر است:

سری مدل‌ها: مدل‌های Kora با پارامترهایی بین ۳۰۰ میلیون تا ۱.۷ میلیارد.
منبع داده: ضبط‌های ناشناس مراکز تماس و آرشیو رادیوهای آفریقایی.
نظارت انسانی: شبکه‌ای از دانشجویان برای برچسب‌گذاری داده‌ها و اصلاح تلفظ‌های محلی.
کاربردهای فعلی: احراز هویت (KYC)، وصول بدهی و فعال‌سازی مشتریان برای بانک‌ها و اپراتورها.

این رویکرد ثابت می‌کند که فرضیه‌ی «هرچه بزرگ‌تر، بهتر» در مواجهه با زبان‌های خاص یا زیرساخت‌های ناپایدار شکست می‌خورد. برای این شرکت، هدف تصاحب بازار جهانی نیست؛ بلکه فتح بازارهای پرحجم و نادیده گرفته‌شده‌ای است که غول‌های فناوری انگیزه‌ای برای بهینه‌سازی آن‌ها ندارند. در واقع، آن‌ها بر روی استنتاج (Inference) — لحظه‌ای که مدل واقعاً جواب تولید می‌کند، شبیه به خودِ آشپزی نه دوره‌ی آموزش آشپز — تمرکز کرده‌اند تا هزینه و سرعت را بهینه کنند.

گام بعدی شما

انتشار APIها و SDKهای AethexAI را دنبال کنید تا ببینید آیا این استراتژی برای زبان‌های دیگر (از جمله فارسی) قابل تعمیم است یا خیر.
اگر در حال توسعه محصول صوتی هستید، اثر استفاده از مدل‌های زیر ۲ میلیارد پارامتری را بر نرخ تأخیر (Latency) در محیط‌های واقعی بسنجید.

اما داستان جمع‌آوری داده‌های محلی برای این مدل‌ها حتی پیچیده‌تر است — به تحلیل ما درباره‌ی «وزن‌های باز» و حریم خصوصی داده‌ها مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

جزئیات فنی این معماری شامل موارد زیر است:

سری مدل‌ها: مدل‌های Kora با پارامترهایی بین ۳۰۰ میلیون تا ۱.۷ میلیارد.
منبع داده: ضبط‌های ناشناس مراکز تماس و آرشیو رادیوهای آفریقایی.
نظارت انسانی: شبکه‌ای از دانشجویان برای برچسب‌گذاری داده‌ها و اصلاح تلفظ‌های محلی.
کاربردهای فعلی: احراز هویت (KYC)، وصول بدهی و فعال‌سازی مشتریان برای بانک‌ها و اپراتورها.

گام بعدی شما

انتشار APIها و SDKهای AethexAI را دنبال کنید تا ببینید آیا این استراتژی برای زبان‌های دیگر (از جمله فارسی) قابل تعمیم است یا خیر.
اگر در حال توسعه محصول صوتی هستید، اثر استفاده از مدل‌های زیر ۲ میلیارد پارامتری را بر نرخ تأخیر (Latency) در محیط‌های واقعی بسنجید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سازوکار AethexAI برای حذف تأخیر صوتی با تکیه بر مدل‌های زبانی کوچک

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سازوکار AethexAI برای حذف تأخیر صوتی با تکیه بر مدل‌های زبانی کوچک

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سازوکار AethexAI برای حذف تأخیر صوتی با تکیه بر مدل‌های زبانی کوچک

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سازوکار AethexAI برای حذف تأخیر صوتی با تکیه بر مدل‌های زبانی کوچک

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران