درون سازوکار Lyrisee برای بهینه‌سازی زمان‌بندی‌های متنی Whisper

اگر امروز ویدئوهای موزیکال با هوش مصنوعی می‌سازید، یک اشتباه کوچک در شنیدن یک کلمه می‌تواند تمام خروجی حرفه‌ای شما را خراب کند. تصور کنید مدل کلمه‌ی «رگ» را به جای «رگ‌ها» بنویسد؛ در این لحظه شما به جای یک ابزار هوشمند، با یک مانع دیجیتال روبه‌رو هستید.

برای حل این مشکل، Lyrisee در ۱۷ ژوئن ۲۰۲۶ یک ویرایشگر دستی متن منتشر کرد. این ابزار به کاربران اجازه می‌دهد خطاهای استنتاج را بدون نیاز به بازگرداندن کل پروژه به ابتدای خط لوله‌ی پردازش، اصلاح کنند. بازشناسی گفتار (ASR) — که شبیه به شنیده‌نوشتی است که سعی می‌کند سریعاً حرف‌های یک نفر را روی کاغذ بیاورد — اغلب در برابر اصطلاحات خیابانی رپ یا اسامی خاص شکست می‌خورد.

همان‌طور که در تحلیل‌های قبلی ما درباره‌ی محدودیت‌های مدل‌های صوتی اشاره کردیم، اکثر ابزارها هنگام یافتن یک خطا، کاربر را مجبور به اجرای مجدد کل فرآیند می‌کنند که باعث اتلاف زمان و هزینه محاسبات (Compute) می‌شود. Lyrisee با جدا کردن موتور تایپوگرافی از بخش استنتاج، این مشکل را حل کرده است.

طبق مستندات منتشرشده در dev.to، این ویرایشگر قابلیت‌های دقیقی برای اصلاحات جراحی‌گونه ارائه می‌دهد:

ویرایش متن: کلمات از طریق difflib.SequenceMatcher با زمان‌بندی‌های اصلی همراستا می‌شوند. جایگزینی یک کلمه، زمان‌بندی را حفظ می‌کند و تغییرات چندکلمه‌ای، پنجره زمانی را به‌طور مساوی تقسیم می‌کنند.
تنظیم زمانی: کاربران می‌توانند زمان شروع هر خط را (مثلاً از ۱۲.۴۸۰ به ۱۲.۶۰۰) تغییر دهند تا خطاهای جزئی مدل Whisper را بپوشانند.
مدیریت خطوط: دکمه‌های افزودن یا حذف خطوط اجازه می‌دهد جملاتی که هوش مصنوعی به‌اشتباه ادغام یا تفکیک کرده بود، اصلاح شوند.
برچسب‌گذاری: کلمات با حروف بزرگ به‌طور خودکار برچسب PROPN می‌گیرند که وزن بصری نمایش آن‌ها را تغییر می‌دهد.

برای کاربر نهایی، این یعنی «جعبه سیاه» هوش مصنوعی اکنون به یک پیش‌نویس تبدیل شده است. دیگر نیازی نیست امیدوار باشید مدل نام یک هنرمند ناشناخته را درست حدس بزند؛ شما به‌سادگی آن را اصلاح کرده و روی Apply & re-render کلیک می‌کنید.

جهت ذخیره این تغییرات برای جلسات آینده، می‌توانید فایل lyric_data.json را دانلود کنید. دفعه‌ی بعد که صدا را بارگذاری می‌کنید، کافی است این فایل را بکشید و رها کنید تا بدون عبور از لوله‌ی پردازش، مستقیماً به مرحله پخش برسید.

گام بعدی شما

اگر از Lyrisee استفاده می‌کنید، برای هر پروژه یک فایل JSON ذخیره کنید تا در ویرایش‌های آتی زمان استنتاج را حذف کنید.
در هنگام ویرایش، ابتدا روی اصلاح کلمات کلیدی (اسامی خاص) تمرکز کنید و سپس زمان‌بندی‌های ریز را تنظیم کنید.
خروجی‌های نهایی را با قابلیت برچسب‌گذاری PROPN بررسی کنید تا وزن بصری متن با ضرب‌آهنگ موسیقی همخوان شود.

اما این تنها بخشی از ماجراست؛ بررسی اینکه چگونه مدل‌های کوچک‌تر در بازشناسی گفتار تخصصی جایگزین غول‌ها می‌شوند را در گزارش بعدی خواهیم خواند.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

طبق مستندات منتشرشده در dev.to، این ویرایشگر قابلیت‌های دقیقی برای اصلاحات جراحی‌گونه ارائه می‌دهد:

ویرایش متن: کلمات از طریق difflib.SequenceMatcher با زمان‌بندی‌های اصلی همراستا می‌شوند. جایگزینی یک کلمه، زمان‌بندی را حفظ می‌کند و تغییرات چندکلمه‌ای، پنجره زمانی را به‌طور مساوی تقسیم می‌کنند.
تنظیم زمانی: کاربران می‌توانند زمان شروع هر خط را (مثلاً از ۱۲.۴۸۰ به ۱۲.۶۰۰) تغییر دهند تا خطاهای جزئی مدل Whisper را بپوشانند.
مدیریت خطوط: دکمه‌های افزودن یا حذف خطوط اجازه می‌دهد جملاتی که هوش مصنوعی به‌اشتباه ادغام یا تفکیک کرده بود، اصلاح شوند.
برچسب‌گذاری: کلمات با حروف بزرگ به‌طور خودکار برچسب PROPN می‌گیرند که وزن بصری نمایش آن‌ها را تغییر می‌دهد.

گام بعدی شما

اگر از Lyrisee استفاده می‌کنید، برای هر پروژه یک فایل JSON ذخیره کنید تا در ویرایش‌های آتی زمان استنتاج را حذف کنید.
در هنگام ویرایش، ابتدا روی اصلاح کلمات کلیدی (اسامی خاص) تمرکز کنید و سپس زمان‌بندی‌های ریز را تنظیم کنید.
خروجی‌های نهایی را با قابلیت برچسب‌گذاری PROPN بررسی کنید تا وزن بصری متن با ضرب‌آهنگ موسیقی همخوان شود.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

درون سازوکار Lyrisee برای بهینه‌سازی زمان‌بندی‌های متنی Whisper

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

درون سازوکار Lyrisee برای بهینه‌سازی زمان‌بندی‌های متنی Whisper

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

درون سازوکار Lyrisee برای بهینه‌سازی زمان‌بندی‌های متنی Whisper

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

کاهش پیچیدگی استقرار عامل‌های AI با یک قالب داده‌ای واحد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

درون سازوکار Lyrisee برای بهینه‌سازی زمان‌بندی‌های متنی Whisper

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

کاهش پیچیدگی استقرار عامل‌های AI با یک قالب داده‌ای واحد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران