Gradium: کاهش تأخیر ترجمهٔ هم‌زمان گفتار به ۳ ثانیه

۳ ثانیه؛ این تمامِ زمانی است که اکنون برای ترجمهٔ هم‌زمان گفتار نیاز است تا مکالمه‌ای طبیعی شکل بگیرد. این دستاورد مدیون معماری جدیدی است که شرکت Gradium معرفی کرده و توانسته است gpt-realtime-translate را در معیار تأخیر شکست دهد. این تغییر رویکرد، صنعت را از مدل‌های سنتی آبشاری (Cascade) دور کرده و به سمت یک روش بهینه‌سازی مشترک و ساده‌شده سوق می‌دهد.

بیشتر سامانه‌های تبدیل گفتار به گفتار (S2S) امروزه بر پایهٔ یک خط لولهٔ متوالی عمل می‌کنند: ابتدا تبدیل گفتار به متن (STT)، سپس ترجمهٔ آن متن به یک زبان دیگر و در نهایت سنتز صدا (TTS). هر یک از این مراحل یک فراخوانی استنتاج (Inference) مجزا و یک تأخیر در انتقال داده ایجاد می‌کند. این ساختار قدیمی اغلب منجر به تجربه‌ای «لگ‌دار» در مکالمات می‌شود که جریان طبیعی صحبت انسان را مختل می‌کند.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی بهینه‌سازی مدل‌های چندوجهی اشاره کردیم، حذف لایه‌های میانی، کلید دستیابی به سرعت‌های پردازشی در سطح انسانی است. برای شکستن این گلوگاه، Gradium دو مدل جدید به نام‌های stt-translate و s2s-translate را عرضه کرد. این مدل‌ها فرآیند سه مرحله‌ای معمول را به تنها دو مرحله کاهش داده و موتور اختصاصی ترجمهٔ متن-به-متن را به‌طور کامل حذف کرده‌اند.

معماری فنی و سازوکار

طبق مستندات فنی، مدل stt-translate وظیفهٔ نویسه‌برداری و ترجمه را در یک گذر واحد (Single Pass) انجام می‌دهد. با اجرای هم‌زمان این دو وظیفه در داخل مدل گفتار، دیگر نیازی به انتظار برای متن میانی یا انتقال داده بین دو سیستم مختلف نیست. این طراحی بر پایهٔ چارچوب Hibiki-Zero است و از یادگیری تقویتی (Reinforcement Learning) برای بهینه‌سازی هم‌زمان تأخیر پایین و دقت بالا استفاده می‌کند. این معماری تضمین می‌کند که قطعات متحرک کمتری در خط لوله وجود داشته باشد.

برای خروجی صوتی کامل، مدل s2s-translate صوت ورودی را به‌صورت سرتاسری (End-to-End) از یک زبان به زبان دیگر تبدیل می‌کند. این مدل بر پایهٔ stt-translate ساخته شده و در یک سرویس واحد با مدل Gradium TTS جفت شده است. کل این خط لوله در یک سرویس قرار دارد و به کاربران اجازه می‌دهد صوت را از طریق یک WebSocket دوطرفه (Duplex) استریم کنند. کاربران همزمان با تولید صوت سنتز شده، متن ترجمه شده را نیز دریافت می‌کنند.

این رویکرد، حجم عظیمی از کارهای یکپارچه‌سازی را حذف می‌کند. توسعه‌دهندگان دیگر مجبور نیستند STT و TTS را به‌صورت دستی به هم متصل کنند یا دو اتصال مجزا را مدیریت نمایند؛ سرور به‌طور خودکار خط لوله را اجرا کرده و نتایج را استریم می‌کند.

بنچمارک‌ها و عملکرد

به گزارش Gradium، کیفیت این سامانه با استفاده از یک مجموعه دادهٔ گفتاری اختصاصی سنجیده شده است. برخلاف متون از پیش‌نوشته شده، این داده‌ها بازتاب‌دهندهٔ موضوعات روزمره مانند محیط کار، سفر و آب‌وهوا هستند. نتایج یک موازنهٔ جدی میان دقت و تأخیر را نشان می‌دهد:

تأخیر (Latency): میانگین تأخیر Gradium در تمامی جفت‌زبان‌ها ۳ ثانیه است که از gpt-realtime-translate (۳.۶ ثانیه) سریع‌تر و تنها اندکی کندتر از gemini-3.5-live-translate (۲.۹ ثانیه) است. این رقابت در سرعت پردازشی در حالی رخ می‌دهد که گوگل پیش‌تر پشتیبانی Gemini 3.5 از ترجمه هم‌زمان برای ۷۰ زبان را معرفی کرده بود تا دسترسی گسترده‌تری به کاربران جهانی ایجاد کند.
امتیاز BLEU: مدل Gradium در وفاداری واژگانی از هر دو مدل جمینای و GPT پیشی گرفته است. معیار BLEU (Bilingual Evaluation Understudy) میزان هم‌پوشانی n-gram بین خروجی مدل و ترجمهٔ مرجع انسانی را می‌سنجد. این یک معیار استاندارد است که توسط Papineni و همکارانش معرفی شده و بازه آن از ۰ تا ۱۰۰ است (هرچه بالاتر، بهتر). اگرچه این معیار سریع و تکرارپذیر است، اما محدودیت آن این است که تطبیق ظاهری کلمات را به معنای معنایی ترجیح می‌دهد.
MetricX: در سنجش کفایت معنایی, Gradium از جمینای پیشتک است و با GPT رقابت می‌کند. MetricX یک معیار کیفیت عصبی و یادگیری‌شده است که توسط گوگل (Juraska و همکاران) توسعه یافته و پیش‌بینی می‌کند که یک انسان ترجمه را چگونه رتبه‌بندی می‌کند. این یک امتیاز خطا است (هرچه پایین‌تر، بهتر) و بسیار نزدیک‌تر از BLEU، قضاوت انسانی را دنبال می‌کند.

با گزارش هر دو معیار، Gradium نقاط شکست مختلف را پوشش می‌دهد: BLEU وفاداری واژگانی را می‌سنجد و MetricX کفایت معنایی را بررسی می‌کند.

مشخصات زبانی و صوتی

این سامانه در حال حاضر از پنج زبان انگلیسی (EN)، فرانسوی (FR)، آلمانی (DE)، اسپانیایی (ES) و پرتغالی (PT) پشتیبانی می‌کند. این امر ۲۰ جفت‌زبان ممکن را ایجاد می‌کند که اجازه می‌دهد هر زبان مبدأ در این مجموعه به هر زبان مقصد در هر جهتی نگاشت شود.

مشخصات صوتی برای خروجی با کیفیت بالا به‌صورت دقیق تعریف شده‌اند:

ورودی: PCM با فرکانس ۲۴ کیلوهرتز، ۱۶ بیتی Mono با علامت (signed).
خروجی: PCM با فرکانس ۴۸ کیلوهرتز، ۱۶ بیتی Mono با علامت (signed).
فرمت‌های پشتیبانی شده: فرمت‌های WAV، Opus، mu-law و A-law همگی با این سیستم سازگار هستند.

شخصی‌سازی صدا و کنترل

برخلاف gpt-realtime-translate، مجموعه ابزار Gradium کنترل کاملی روی صدای خروجی ارائه می‌دهد. کاربران می‌توانند صدایی را از کاتالوگ پیش‌فرض انتخاب کنند یا از شبیه‌سازی صدا (Voice Cloning) برای این استفاده کنند که صوت ترجمه شده، هویت گوینده اصلی را حفظ کند. این قابلیت اجازه می‌دهد تا ظرافت‌ها، لحن و شخصیت گوینده در عبور از مرزهای زبانی حفظ شود.

یکپارچه‌سازی و موارد کاربرد

توسعه‌دهندگان می‌توانند این سرویس را با استفاده از یک SDK پایتون پیاده‌سازی کنند که صوت را از طریق نقطه اتصال Speech-To-Speech استریم می‌کند. این SDK سه روش برای هدایت S2S ارائه می‌دهد:

s2s_realtime: طراحی شده برای منابع صوتی زنده.
s2s_stream: مورد استفاده برای تکرارکننده‌های محدود (finite iterables).
s2s: بهینه شده برای فایل‌های بافر شده.

تمامی تعاملات از طریق نقطه اتصال wss://api.gradium.ai/api/speech/s2s صورت می‌گیرد. یک تنظیمات رایج شامل تعریف یک voice_id (که باید به زبان مقصد باشد) و تعیین فرمت‌های PCM ورودی و خروجی است.

این قابلیت کاربردهای سطح بالایی را ممکن می‌سازد:

دوبله زنده: شبیه‌سازی صدای یک ارائه‌دهنده برای ترجمهٔ یک سخنرانی کلیدی (Keynote) فرانسوی به اسپانیایی به‌گونه‌ای که همچنان صدای گوینده اصلی باشد.
عامل‌های چندزبانه: مسیریابی تماس‌های پشتیبانی که در آن یک عامل انگلیسی‌زبان، تماس‌گیرندهٔ آلمانی را به زبان انگلیسی می‌شنود و پاسخ‌های او به‌صورت استریم شده به زبان آلمانی برای کاربر ارسال می‌شود.
جلسات هم‌زمان: انتقال صدای میکروفون روی WebSocket تا هر شرکت‌کننده، گفتارهای ترجمه شده و متون را به زبان خود دریافت کند.
دسترسی‌پذیری: استفاده از stt-translate به‌تنهایی برای تولید زیرنویس‌های ترجمه شده و زنده بدون نیاز به تولید صوت.

از دیدگاه فنی، این یک گذار در نحوه تفکر درباره خط لوله‌های چندوجهی (Multimodal) است. Gradium با تبدیل ترجمه به یک تابع اصلی در مدل گفتار (به‌جای یک مرحله پس‌پردازش)، ثابت کرد که کاهش قطعات متحرک در مسیر استنتاج، مؤثرترین راه برای کاهش تأخیر بدون قربانی کردن امتیازهای BLEU است.

اگرچه عرضهٔ اولیه با پنج زبان محدود است، اما توانایی حفظ هویت صوتی و پیشی گرفتن از GPT در سرعت، این ابزار را بسیار قدرتمند می‌کند. با این حال، باید توجه داشت که بنچمارک‌ها از یک مجموعه داده اختصاصی استفاده کرده‌اند و این بدان معنای این است که تکرار نتایج توسط منابع خارجی در حال حاضر محدود است.

برای مشاهده این مدل‌ها در عمل، می‌توانید رابط ترجمهٔ هم‌زمان را در سایت gradium.ai/translate تست کنید یا برای یکپارچه‌سازی SDK، مستندات API را بررسی نمایید.

گام بعدی شما

تست رابط ترجمهٔ هم‌زمان در سایت gradium.ai/translate برای ارزیابی کیفیت صدا.
بررسی مستندات API برای پیاده‌سازی سیستم‌های دوبله زنده در اپلیکیشن‌های ارتباطی.
مقایسه خروجی‌های semantic در MetricX در برابر ترجمه‌های سنتی متنی.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های استنتاجی نسل جدید مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

معماری فنی و سازوکار

بنچمارک‌ها و عملکرد

تأخیر (Latency): میانگین تأخیر Gradium در تمامی جفت‌زبان‌ها ۳ ثانیه است که از gpt-realtime-translate (۳.۶ ثانیه) سریع‌تر و تنها اندکی کندتر از gemini-3.5-live-translate (۲.۹ ثانیه) است. این رقابت در سرعت پردازشی در حالی رخ می‌دهد که گوگل پیش‌تر پشتیبانی Gemini 3.5 از ترجمه هم‌زمان برای ۷۰ زبان را معرفی کرده بود تا دسترسی گسترده‌تری به کاربران جهانی ایجاد کند.
امتیاز BLEU: مدل Gradium در وفاداری واژگانی از هر دو مدل جمینای و GPT پیشی گرفته است. معیار BLEU (Bilingual Evaluation Understudy) میزان هم‌پوشانی n-gram بین خروجی مدل و ترجمهٔ مرجع انسانی را می‌سنجد. این یک معیار استاندارد است که توسط Papineni و همکارانش معرفی شده و بازه آن از ۰ تا ۱۰۰ است (هرچه بالاتر، بهتر). اگرچه این معیار سریع و تکرارپذیر است، اما محدودیت آن این است که تطبیق ظاهری کلمات را به معنای معنایی ترجیح می‌دهد.
MetricX: در سنجش کفایت معنایی, Gradium از جمینای پیشتک است و با GPT رقابت می‌کند. MetricX یک معیار کیفیت عصبی و یادگیری‌شده است که توسط گوگل (Juraska و همکاران) توسعه یافته و پیش‌بینی می‌کند که یک انسان ترجمه را چگونه رتبه‌بندی می‌کند. این یک امتیاز خطا است (هرچه پایین‌تر، بهتر) و بسیار نزدیک‌تر از BLEU، قضاوت انسانی را دنبال می‌کند.

مشخصات زبانی و صوتی

مشخصات صوتی برای خروجی با کیفیت بالا به‌صورت دقیق تعریف شده‌اند:

ورودی: PCM با فرکانس ۲۴ کیلوهرتز، ۱۶ بیتی Mono با علامت (signed).
خروجی: PCM با فرکانس ۴۸ کیلوهرتز، ۱۶ بیتی Mono با علامت (signed).
فرمت‌های پشتیبانی شده: فرمت‌های WAV، Opus، mu-law و A-law همگی با این سیستم سازگار هستند.

شخصی‌سازی صدا و کنترل

یکپارچه‌سازی و موارد کاربرد

s2s_realtime: طراحی شده برای منابع صوتی زنده.
s2s_stream: مورد استفاده برای تکرارکننده‌های محدود (finite iterables).
s2s: بهینه شده برای فایل‌های بافر شده.

این قابلیت کاربردهای سطح بالایی را ممکن می‌سازد:

دوبله زنده: شبیه‌سازی صدای یک ارائه‌دهنده برای ترجمهٔ یک سخنرانی کلیدی (Keynote) فرانسوی به اسپانیایی به‌گونه‌ای که همچنان صدای گوینده اصلی باشد.
عامل‌های چندزبانه: مسیریابی تماس‌های پشتیبانی که در آن یک عامل انگلیسی‌زبان، تماس‌گیرندهٔ آلمانی را به زبان انگلیسی می‌شنود و پاسخ‌های او به‌صورت استریم شده به زبان آلمانی برای کاربر ارسال می‌شود.
جلسات هم‌زمان: انتقال صدای میکروفون روی WebSocket تا هر شرکت‌کننده، گفتارهای ترجمه شده و متون را به زبان خود دریافت کند.
دسترسی‌پذیری: استفاده از stt-translate به‌تنهایی برای تولید زیرنویس‌های ترجمه شده و زنده بدون نیاز به تولید صوت.

گام بعدی شما

تست رابط ترجمهٔ هم‌زمان در سایت gradium.ai/translate برای ارزیابی کیفیت صدا.
بررسی مستندات API برای پیاده‌سازی سیستم‌های دوبله زنده در اپلیکیشن‌های ارتباطی.
مقایسه خروجی‌های semantic در MetricX در برابر ترجمه‌های سنتی متنی.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Gradium: کاهش تأخیر ترجمهٔ هم‌زمان گفتار به ۳ ثانیه

معماری فنی و سازوکار

بنچمارک‌ها و عملکرد

مشخصات زبانی و صوتی

شخصی‌سازی صدا و کنترل

یکپارچه‌سازی و موارد کاربرد

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Gradium: کاهش تأخیر ترجمهٔ هم‌زمان گفتار به ۳ ثانیه

معماری فنی و سازوکار

بنچمارک‌ها و عملکرد

مشخصات زبانی و صوتی

شخصی‌سازی صدا و کنترل

یکپارچه‌سازی و موارد کاربرد

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Gradium: کاهش تأخیر ترجمهٔ هم‌زمان گفتار به ۳ ثانیه

معماری فنی و سازوکار

بنچمارک‌ها و عملکرد

مشخصات زبانی و صوتی

شخصی‌سازی صدا و کنترل

یکپارچه‌سازی و موارد کاربرد

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

Gradium: کاهش تأخیر ترجمهٔ هم‌زمان گفتار به ۳ ثانیه

معماری فنی و سازوکار

بنچمارک‌ها و عملکرد

مشخصات زبانی و صوتی

شخصی‌سازی صدا و کنترل

یکپارچه‌سازی و موارد کاربرد

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران