اگر کسبوکاری در آفریقا یا خاورمیانه مدیریت میکنید، میدانید که حتی یک ثانیه تأخیر در تماسهای صوتی، مشتری را میپراند. در این مناطق، حجم تماسهای تجاری سه برابر شرکتهای غربی است، اما ابزارهای صوتی فعلی در مواجهه با لهجههای محلی و زیرساختهای ضعیف شکست میخورند.
AethexAI برای حل این مشکل، بهجای استفاده از مدلهای عمومی، روی مدل زبانی کوچک (SLM) — که مثل یک لغتنامه جیبی تخصصی است و سریعتر از یک کتابخانه عظیم ورق میخورد — سرمایهگذاری کرده است. این استراتژی باعث شده شرکت اکنون روزانه ۱۷ هزار تماس را برای سازمانهای منطقهای پردازش کند.
همانطور که در تحلیل قبلی ما دربارهی استقرار هوش مصنوعی متا برای کسبوکارهای کوچک اشاره کردیم، نیاز به تعاملات صوتی بینقص در بازارهای نوظهور همچنان پاسخدادهنشده باقی مانده است. در این مناطق، تأخیر (Latency) — یا همان فاصله بین پرسش و پاسخ که شبیه سکوتهای آزاردهنده در تماسهای بینالمللی است — عامل اصلی شکست پذیرش فناوری در سطح سازمانی است.
طبق اعلام شرکت در ۳ ژوئن ۲۰۲۶، این استارتآپ موفق به جذب ۳ میلیون دلار سرمایه در دورهی pre-seed شد که هدایت آن بر عهدهی 4DX Ventures بود. به نقل از گزارش TechCrunch، مدیرعامل (ماریاما دیالو) و مدیر فنی (آیولووا اودموییوا) برای حذف نوسانات شدید سیگنال در شبکههای تلفنی منطقه، تصمیم گرفتند ابزارهای آمادهای مثل Vapi یا LiveKit را کنار بگذارند و لایهی ارتباطی خودشان را از صفر بسازند.
جزئیات فنی این معماری شامل موارد زیر است:
- سری مدلها: مدلهای Kora با پارامترهایی بین ۳۰۰ میلیون تا ۱.۷ میلیارد.
- منبع داده: ضبطهای ناشناس مراکز تماس و آرشیو رادیوهای آفریقایی.
- نظارت انسانی: شبکهای از دانشجویان برای برچسبگذاری دادهها و اصلاح تلفظهای محلی.
- کاربردهای فعلی: احراز هویت (KYC)، وصول بدهی و فعالسازی مشتریان برای بانکها و اپراتورها.
این رویکرد ثابت میکند که فرضیهی «هرچه بزرگتر، بهتر» در مواجهه با زبانهای خاص یا زیرساختهای ناپایدار شکست میخورد. برای این شرکت، هدف تصاحب بازار جهانی نیست؛ بلکه فتح بازارهای پرحجم و نادیده گرفتهشدهای است که غولهای فناوری انگیزهای برای بهینهسازی آنها ندارند. در واقع، آنها بر روی استنتاج (Inference) — لحظهای که مدل واقعاً جواب تولید میکند، شبیه به خودِ آشپزی نه دورهی آموزش آشپز — تمرکز کردهاند تا هزینه و سرعت را بهینه کنند.
گام بعدی شما
- انتشار APIها و SDKهای AethexAI را دنبال کنید تا ببینید آیا این استراتژی برای زبانهای دیگر (از جمله فارسی) قابل تعمیم است یا خیر.
- اگر در حال توسعه محصول صوتی هستید، اثر استفاده از مدلهای زیر ۲ میلیارد پارامتری را بر نرخ تأخیر (Latency) در محیطهای واقعی بسنجید.
اما داستان جمعآوری دادههای محلی برای این مدلها حتی پیچیدهتر است — به تحلیل ما دربارهی «وزنهای باز» و حریم خصوصی دادهها مراجعه کنید.




گفتگو