راز ۷.۵ هرتز: مایکروسافت چگونه صدای انسان را برای یک ساعت تثبیت کرد؟

تصور کنید یک مدل هوش مصنوعی بتواند یک ساعت کامل صحبت‌های شما را بدون کوچک‌ترین تغییر در لحن و کیفیت تحلیل کند. مایکروسافت با معرفی VibeVoice ادعا می‌کند که بالاخره مشکل «خرد کردن» (Chunking) فایل‌های صوتی را حل کرده است.

به نقل از مخزن گیت‌هاب این پروژه، این چارچوب مجموعه‌ای از مدل‌های پیشرو در حوزه صوت است که برای حذف قطعه‌قطعه کردن داده‌ها در سیستم‌های سنتی شناسایی گفتار طراحی شده‌اند. طبق اعلام این شرکت، در ۶ مارس ۲۰۲۶ مدل VibeVoice-ASR به کتابخانه Transformers در Hugging Face اضافه شد تا توسعه‌دهندگان بتوانند تبدیل گفتار به متن در مقیاس طولانی را به‌طور یکپارچه پیاده‌سازی کنند.

نوآوری اصلی این سیستم در استفاده از توکن‌ساز (Tokenizer)های گفتار پیوسته است که با نرخ فریم بسیار پایین ۷.۵ هرتز عمل می‌کنند. این بهینه‌سازی اجازه می‌دهد تا ۶۰ دقیقه صدای مداوم در یک مرحله و در قالب یک طول توکن ۶۴ هزارتایی پردازش شود؛ امری که انسجام معنایی را در کل ضبط حفظ می‌کند.

قابلیت‌های کلیدی این سیستم عبارتند از:

VibeVoice-ASR: تولید نسخه‌های متنی ساختاریافته شامل «چه کسی» (گوینده)، «چه زمانی» (برچسب زمانی) و «چه چیزی» (محتوا) برای بیش از ۵۰ زبان.
VibeVoice-Realtime-0.5B: یک مدل سبک و بهینه برای استقرار سریع که تأخیر (Latency) شنیداری آن برای تبدیل متن به گفتار تنها ۳۰۰ میلی‌ثانیه است.
VibeVoice-TTS: توانایی تولید صدای چندگوینده تا ۹۰ دقیقه. البته مایکروسافت در ۵ سپتامبر ۲۰۲۵ کد این بخش را به دلیل نگرانی از جعل عمیق (Deepfake) و استفاده‌های غیرمسئولانه حذف کرد.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی مدل‌های چندوجهی (Multimodal) اشاره کردیم، حفظ انسجام در داده‌های طولانی همیشه یک چالش بوده است. VibeVoice برای درک بافت متنی و جریان گفتگو، از یک چارچوب مدل انتشار (Diffusion Model) توکن-بعدی و مدل زبانی بزرگ Qwen2.5 1.5b بهره می‌برد.

با تبدیل صوت به یک جریان پیوسته به جای کلیپ‌های تکه‌تکه، این سیستم تضمین می‌کند که ردیابی گوینده در طول یک ساعت گفتگو کاملاً پایدار بماند. اما این پیشرفت در پردازش صوت، تنها تکه‌ای از پازل است؛ تأثیر این تکنولوژی بر آینده‌ی دستیارهای صوتی شخصی را در گزارش بعدی بررسی خواهیم کرد.

گام بعدی شما

بررسی مدل VibeVoice-ASR در Hugging Face برای اتوماسیون جلسات طولانی.
آزمایش مدل Realtime-0.5B برای کاهش تأخیر در اپلیکیشن‌های صوتی.
مطالعه مستندات Qwen2.5 برای درک نحوه ترکیب متن و صوت در این معماری.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

قابلیت‌های کلیدی این سیستم عبارتند از:

VibeVoice-ASR: تولید نسخه‌های متنی ساختاریافته شامل «چه کسی» (گوینده)، «چه زمانی» (برچسب زمانی) و «چه چیزی» (محتوا) برای بیش از ۵۰ زبان.
VibeVoice-Realtime-0.5B: یک مدل سبک و بهینه برای استقرار سریع که تأخیر (Latency) شنیداری آن برای تبدیل متن به گفتار تنها ۳۰۰ میلی‌ثانیه است.
VibeVoice-TTS: توانایی تولید صدای چندگوینده تا ۹۰ دقیقه. البته مایکروسافت در ۵ سپتامبر ۲۰۲۵ کد این بخش را به دلیل نگرانی از جعل عمیق (Deepfake) و استفاده‌های غیرمسئولانه حذف کرد.

گام بعدی شما

بررسی مدل VibeVoice-ASR در Hugging Face برای اتوماسیون جلسات طولانی.
آزمایش مدل Realtime-0.5B برای کاهش تأخیر در اپلیکیشن‌های صوتی.
مطالعه مستندات Qwen2.5 برای درک نحوه ترکیب متن و صوت در این معماری.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

راز ۷.۵ هرتز: مایکروسافت چگونه صدای انسان را برای یک ساعت تثبیت کرد؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

راز ۷.۵ هرتز: مایکروسافت چگونه صدای انسان را برای یک ساعت تثبیت کرد؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

راز ۷.۵ هرتز: مایکروسافت چگونه صدای انسان را برای یک ساعت تثبیت کرد؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

راز ۷.۵ هرتز: مایکروسافت چگونه صدای انسان را برای یک ساعت تثبیت کرد؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران