۳ ثانیه؛ این تمامِ زمانی است که اکنون برای ترجمهٔ همزمان گفتار نیاز است تا مکالمهای طبیعی شکل بگیرد. این دستاورد مدیون معماری جدیدی است که شرکت Gradium معرفی کرده و توانسته است gpt-realtime-translate را در معیار تأخیر شکست دهد. این تغییر رویکرد، صنعت را از مدلهای سنتی آبشاری (Cascade) دور کرده و به سمت یک روش بهینهسازی مشترک و سادهشده سوق میدهد.
بیشتر سامانههای تبدیل گفتار به گفتار (S2S) امروزه بر پایهٔ یک خط لولهٔ متوالی عمل میکنند: ابتدا تبدیل گفتار به متن (STT)، سپس ترجمهٔ آن متن به یک زبان دیگر و در نهایت سنتز صدا (TTS). هر یک از این مراحل یک فراخوانی استنتاج (Inference) مجزا و یک تأخیر در انتقال داده ایجاد میکند. این ساختار قدیمی اغلب منجر به تجربهای «لگدار» در مکالمات میشود که جریان طبیعی صحبت انسان را مختل میکند.
همانطور که در تحلیلهای پیشین ما دربارهی بهینهسازی مدلهای چندوجهی اشاره کردیم، حذف لایههای میانی، کلید دستیابی به سرعتهای پردازشی در سطح انسانی است. برای شکستن این گلوگاه، Gradium دو مدل جدید به نامهای stt-translate و s2s-translate را عرضه کرد. این مدلها فرآیند سه مرحلهای معمول را به تنها دو مرحله کاهش داده و موتور اختصاصی ترجمهٔ متن-به-متن را بهطور کامل حذف کردهاند.
معماری فنی و سازوکار
طبق مستندات فنی، مدل stt-translate وظیفهٔ نویسهبرداری و ترجمه را در یک گذر واحد (Single Pass) انجام میدهد. با اجرای همزمان این دو وظیفه در داخل مدل گفتار، دیگر نیازی به انتظار برای متن میانی یا انتقال داده بین دو سیستم مختلف نیست. این طراحی بر پایهٔ چارچوب Hibiki-Zero است و از یادگیری تقویتی (Reinforcement Learning) برای بهینهسازی همزمان تأخیر پایین و دقت بالا استفاده میکند. این معماری تضمین میکند که قطعات متحرک کمتری در خط لوله وجود داشته باشد.
برای خروجی صوتی کامل، مدل s2s-translate صوت ورودی را بهصورت سرتاسری (End-to-End) از یک زبان به زبان دیگر تبدیل میکند. این مدل بر پایهٔ stt-translate ساخته شده و در یک سرویس واحد با مدل Gradium TTS جفت شده است. کل این خط لوله در یک سرویس قرار دارد و به کاربران اجازه میدهد صوت را از طریق یک WebSocket دوطرفه (Duplex) استریم کنند. کاربران همزمان با تولید صوت سنتز شده، متن ترجمه شده را نیز دریافت میکنند.
این رویکرد، حجم عظیمی از کارهای یکپارچهسازی را حذف میکند. توسعهدهندگان دیگر مجبور نیستند STT و TTS را بهصورت دستی به هم متصل کنند یا دو اتصال مجزا را مدیریت نمایند؛ سرور بهطور خودکار خط لوله را اجرا کرده و نتایج را استریم میکند.
بنچمارکها و عملکرد
به گزارش Gradium، کیفیت این سامانه با استفاده از یک مجموعه دادهٔ گفتاری اختصاصی سنجیده شده است. برخلاف متون از پیشنوشته شده، این دادهها بازتابدهندهٔ موضوعات روزمره مانند محیط کار، سفر و آبوهوا هستند. نتایج یک موازنهٔ جدی میان دقت و تأخیر را نشان میدهد:
- تأخیر (Latency): میانگین تأخیر Gradium در تمامی جفتزبانها ۳ ثانیه است که از gpt-realtime-translate (۳.۶ ثانیه) سریعتر و تنها اندکی کندتر از gemini-3.5-live-translate (۲.۹ ثانیه) است. این رقابت در سرعت پردازشی در حالی رخ میدهد که گوگل پیشتر پشتیبانی Gemini 3.5 از ترجمه همزمان برای ۷۰ زبان را معرفی کرده بود تا دسترسی گستردهتری به کاربران جهانی ایجاد کند.
- امتیاز BLEU: مدل Gradium در وفاداری واژگانی از هر دو مدل جمینای و GPT پیشی گرفته است. معیار BLEU (Bilingual Evaluation Understudy) میزان همپوشانی n-gram بین خروجی مدل و ترجمهٔ مرجع انسانی را میسنجد. این یک معیار استاندارد است که توسط Papineni و همکارانش معرفی شده و بازه آن از ۰ تا ۱۰۰ است (هرچه بالاتر، بهتر). اگرچه این معیار سریع و تکرارپذیر است، اما محدودیت آن این است که تطبیق ظاهری کلمات را به معنای معنایی ترجیح میدهد.
- MetricX: در سنجش کفایت معنایی, Gradium از جمینای پیشتک است و با GPT رقابت میکند. MetricX یک معیار کیفیت عصبی و یادگیریشده است که توسط گوگل (Juraska و همکاران) توسعه یافته و پیشبینی میکند که یک انسان ترجمه را چگونه رتبهبندی میکند. این یک امتیاز خطا است (هرچه پایینتر، بهتر) و بسیار نزدیکتر از BLEU، قضاوت انسانی را دنبال میکند.
با گزارش هر دو معیار، Gradium نقاط شکست مختلف را پوشش میدهد: BLEU وفاداری واژگانی را میسنجد و MetricX کفایت معنایی را بررسی میکند.
مشخصات زبانی و صوتی
این سامانه در حال حاضر از پنج زبان انگلیسی (EN)، فرانسوی (FR)، آلمانی (DE)، اسپانیایی (ES) و پرتغالی (PT) پشتیبانی میکند. این امر ۲۰ جفتزبان ممکن را ایجاد میکند که اجازه میدهد هر زبان مبدأ در این مجموعه به هر زبان مقصد در هر جهتی نگاشت شود.
مشخصات صوتی برای خروجی با کیفیت بالا بهصورت دقیق تعریف شدهاند:
- ورودی: PCM با فرکانس ۲۴ کیلوهرتز، ۱۶ بیتی Mono با علامت (signed).
- خروجی: PCM با فرکانس ۴۸ کیلوهرتز، ۱۶ بیتی Mono با علامت (signed).
- فرمتهای پشتیبانی شده: فرمتهای WAV، Opus، mu-law و A-law همگی با این سیستم سازگار هستند.
شخصیسازی صدا و کنترل
برخلاف gpt-realtime-translate، مجموعه ابزار Gradium کنترل کاملی روی صدای خروجی ارائه میدهد. کاربران میتوانند صدایی را از کاتالوگ پیشفرض انتخاب کنند یا از شبیهسازی صدا (Voice Cloning) برای این استفاده کنند که صوت ترجمه شده، هویت گوینده اصلی را حفظ کند. این قابلیت اجازه میدهد تا ظرافتها، لحن و شخصیت گوینده در عبور از مرزهای زبانی حفظ شود.
یکپارچهسازی و موارد کاربرد
توسعهدهندگان میتوانند این سرویس را با استفاده از یک SDK پایتون پیادهسازی کنند که صوت را از طریق نقطه اتصال Speech-To-Speech استریم میکند. این SDK سه روش برای هدایت S2S ارائه میدهد:
- s2s_realtime: طراحی شده برای منابع صوتی زنده.
- s2s_stream: مورد استفاده برای تکرارکنندههای محدود (finite iterables).
- s2s: بهینه شده برای فایلهای بافر شده.
تمامی تعاملات از طریق نقطه اتصال wss://api.gradium.ai/api/speech/s2s صورت میگیرد. یک تنظیمات رایج شامل تعریف یک voice_id (که باید به زبان مقصد باشد) و تعیین فرمتهای PCM ورودی و خروجی است.
این قابلیت کاربردهای سطح بالایی را ممکن میسازد:
- دوبله زنده: شبیهسازی صدای یک ارائهدهنده برای ترجمهٔ یک سخنرانی کلیدی (Keynote) فرانسوی به اسپانیایی بهگونهای که همچنان صدای گوینده اصلی باشد.
- عاملهای چندزبانه: مسیریابی تماسهای پشتیبانی که در آن یک عامل انگلیسیزبان، تماسگیرندهٔ آلمانی را به زبان انگلیسی میشنود و پاسخهای او بهصورت استریم شده به زبان آلمانی برای کاربر ارسال میشود.
- جلسات همزمان: انتقال صدای میکروفون روی WebSocket تا هر شرکتکننده، گفتارهای ترجمه شده و متون را به زبان خود دریافت کند.
- دسترسیپذیری: استفاده از stt-translate بهتنهایی برای تولید زیرنویسهای ترجمه شده و زنده بدون نیاز به تولید صوت.
از دیدگاه فنی، این یک گذار در نحوه تفکر درباره خط لولههای چندوجهی (Multimodal) است. Gradium با تبدیل ترجمه به یک تابع اصلی در مدل گفتار (بهجای یک مرحله پسپردازش)، ثابت کرد که کاهش قطعات متحرک در مسیر استنتاج، مؤثرترین راه برای کاهش تأخیر بدون قربانی کردن امتیازهای BLEU است.
اگرچه عرضهٔ اولیه با پنج زبان محدود است، اما توانایی حفظ هویت صوتی و پیشی گرفتن از GPT در سرعت، این ابزار را بسیار قدرتمند میکند. با این حال، باید توجه داشت که بنچمارکها از یک مجموعه داده اختصاصی استفاده کردهاند و این بدان معنای این است که تکرار نتایج توسط منابع خارجی در حال حاضر محدود است.
برای مشاهده این مدلها در عمل، میتوانید رابط ترجمهٔ همزمان را در سایت gradium.ai/translate تست کنید یا برای یکپارچهسازی SDK، مستندات API را بررسی نمایید.
گام بعدی شما
- تست رابط ترجمهٔ همزمان در سایت gradium.ai/translate برای ارزیابی کیفیت صدا.
- بررسی مستندات API برای پیادهسازی سیستمهای دوبله زنده در اپلیکیشنهای ارتباطی.
- مقایسه خروجیهای semantic در MetricX در برابر ترجمههای سنتی متنی.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای استنتاجی نسل جدید مراجعه کنید.




گفتگو