تصور کنید در یک اجلاس جهانی نشستهاید و صدای ترجمهٔ بینقص سخنران را بهصورت آنی در گوش خود میشنوید، بدون آنکه نیاز باشد با اپلیکیشنهای پیچیده کلنجار بروید. این دقیقاً همان قابلیتی است که DeepL با خرید استارتاپ Mixhalo به بازار عرضه میکند.
سالها بود که ترجمهٔ هوشمند فقط در جعبههای متنی یا دستورات صوتی تککلهای محبوس بود. اما مشکل اصلی این است که سر و صدای محیط در یک سالن شلوغ، اثرگذاری مدلهای صوتی استاندارد را از بین میبرد. برای حل این چالش، Mixhalo مسیرهای صوتی با کیفیت بالا (High-fidelity) برای محیطهای زنده ایجاد کرده بود؛ قابلیتی که حالا به DeepL اجازه میدهد از دنیای مستندات ایستا به محیطهای پویا و زنده نقل مکان کند. همانطور که در تحلیلهای پیشین ما دربارهی تکامل مدلهای چندوجهی اشاره کردیم، ادغام حسهای مختلف برای رسیدن به تجربه انسانی، هدف نهایی این صنعت است.
به گزارش TechCrunch در ۱۷ ژوئن ۲۰۲۶، این تصاحب بخشی از یک نقشه راه استراتژیک است:
- در سال ۲۰۲۴، DeepL ترجمهٔ صوت-به-متن را برای بیش از ۳۳ زبان راهاندازی کرد.
- در آوریل ۲۰۲۶، مجموعهای از ابزارهای صوت-به-صوت برای جلسات چندزبانه معرفی شد.
- Mixhalo که در سال ۲۰۱۶ توسط مایک اینزیگر و همکارانش تأسیس شده بود، پیش از این ۳۹ میلیون دلار سرمایه از مجموعههایی مثل Founders Fund جذب کرده بود.
به باور ویک سینگ (CEO Mixhalo)، این معامله بیشتر یک حرکت دفاعی است. او معتقد است با رشد غولهای هوش مصنوعی زاینده (Generative AI) — که شبیه به شرکتهای عظیم برق هستند که تمام شبکههای کوچک محلی را میبلعند — استارتاپهای کوچک دیگر نمیتوانند در رقابت قیمتی دوام بیاورند. اکنون DeepL برای تثبیت حضور فیزیکی خود در آمریکا، دفتری در خلیج سانفرانسیسکو افتتاح کرده است تا این عملیات را در مقیاس وسیعتر اجرا کند.
گام بعدی شما
- اگر برگزارکننده رویداد هستید، مدلهای جدید استریم صوتی را با جایگزینهای فعلی مانند Wordly AI مقایسه کنید.
- تغییرات قیمتگذاری خدمات ترجمهٔ زنده را در ماه آینده زیر نظر بگیرید.
- بررسی کنید آیا زیرساخت صوتی سالنهای شما با استانداردهای High-fidelity سازگار است یا خیر.
اما تأثیر این ادغام بر هزینههای زیرساختی استنتاج صوتی حتی پیچیدهتر است — به تحلیل ما دربارهی بهینهسازی GPU در مدلهای زنده مراجعه کنید.




گفتگو