تصور کنید یک مدل هوش مصنوعی بتواند یک ساعت کامل صحبتهای شما را بدون کوچکترین تغییر در لحن و کیفیت تحلیل کند. مایکروسافت با معرفی VibeVoice ادعا میکند که بالاخره مشکل «خرد کردن» (Chunking) فایلهای صوتی را حل کرده است.
به نقل از مخزن گیتهاب این پروژه، این چارچوب مجموعهای از مدلهای پیشرو در حوزه صوت است که برای حذف قطعهقطعه کردن دادهها در سیستمهای سنتی شناسایی گفتار طراحی شدهاند. طبق اعلام این شرکت، در ۶ مارس ۲۰۲۶ مدل VibeVoice-ASR به کتابخانه Transformers در Hugging Face اضافه شد تا توسعهدهندگان بتوانند تبدیل گفتار به متن در مقیاس طولانی را بهطور یکپارچه پیادهسازی کنند.
نوآوری اصلی این سیستم در استفاده از توکنساز (Tokenizer)های گفتار پیوسته است که با نرخ فریم بسیار پایین ۷.۵ هرتز عمل میکنند. این بهینهسازی اجازه میدهد تا ۶۰ دقیقه صدای مداوم در یک مرحله و در قالب یک طول توکن ۶۴ هزارتایی پردازش شود؛ امری که انسجام معنایی را در کل ضبط حفظ میکند.
قابلیتهای کلیدی این سیستم عبارتند از:
- VibeVoice-ASR: تولید نسخههای متنی ساختاریافته شامل «چه کسی» (گوینده)، «چه زمانی» (برچسب زمانی) و «چه چیزی» (محتوا) برای بیش از ۵۰ زبان.
- VibeVoice-Realtime-0.5B: یک مدل سبک و بهینه برای استقرار سریع که تأخیر (Latency) شنیداری آن برای تبدیل متن به گفتار تنها ۳۰۰ میلیثانیه است.
- VibeVoice-TTS: توانایی تولید صدای چندگوینده تا ۹۰ دقیقه. البته مایکروسافت در ۵ سپتامبر ۲۰۲۵ کد این بخش را به دلیل نگرانی از جعل عمیق (Deepfake) و استفادههای غیرمسئولانه حذف کرد.
همانطور که در تحلیلهای پیشین ما دربارهی مدلهای چندوجهی (Multimodal) اشاره کردیم، حفظ انسجام در دادههای طولانی همیشه یک چالش بوده است. VibeVoice برای درک بافت متنی و جریان گفتگو، از یک چارچوب مدل انتشار (Diffusion Model) توکن-بعدی و مدل زبانی بزرگ Qwen2.5 1.5b بهره میبرد.
با تبدیل صوت به یک جریان پیوسته به جای کلیپهای تکهتکه، این سیستم تضمین میکند که ردیابی گوینده در طول یک ساعت گفتگو کاملاً پایدار بماند. اما این پیشرفت در پردازش صوت، تنها تکهای از پازل است؛ تأثیر این تکنولوژی بر آیندهی دستیارهای صوتی شخصی را در گزارش بعدی بررسی خواهیم کرد.
گام بعدی شما
- بررسی مدل VibeVoice-ASR در Hugging Face برای اتوماسیون جلسات طولانی.
- آزمایش مدل Realtime-0.5B برای کاهش تأخیر در اپلیکیشنهای صوتی.
- مطالعه مستندات Qwen2.5 برای درک نحوه ترکیب متن و صوت در این معماری.




گفتگو