اگر امروز ویدئوهای موزیکال با هوش مصنوعی میسازید، یک اشتباه کوچک در شنیدن یک کلمه میتواند تمام خروجی حرفهای شما را خراب کند. تصور کنید مدل کلمهی «رگ» را به جای «رگها» بنویسد؛ در این لحظه شما به جای یک ابزار هوشمند، با یک مانع دیجیتال روبهرو هستید.
برای حل این مشکل، Lyrisee در ۱۷ ژوئن ۲۰۲۶ یک ویرایشگر دستی متن منتشر کرد. این ابزار به کاربران اجازه میدهد خطاهای استنتاج را بدون نیاز به بازگرداندن کل پروژه به ابتدای خط لولهی پردازش، اصلاح کنند. بازشناسی گفتار (ASR) — که شبیه به شنیدهنوشتی است که سعی میکند سریعاً حرفهای یک نفر را روی کاغذ بیاورد — اغلب در برابر اصطلاحات خیابانی رپ یا اسامی خاص شکست میخورد.
همانطور که در تحلیلهای قبلی ما دربارهی محدودیتهای مدلهای صوتی اشاره کردیم، اکثر ابزارها هنگام یافتن یک خطا، کاربر را مجبور به اجرای مجدد کل فرآیند میکنند که باعث اتلاف زمان و هزینه محاسبات (Compute) میشود. Lyrisee با جدا کردن موتور تایپوگرافی از بخش استنتاج، این مشکل را حل کرده است.
طبق مستندات منتشرشده در dev.to، این ویرایشگر قابلیتهای دقیقی برای اصلاحات جراحیگونه ارائه میدهد:
- ویرایش متن: کلمات از طریق
difflib.SequenceMatcherبا زمانبندیهای اصلی همراستا میشوند. جایگزینی یک کلمه، زمانبندی را حفظ میکند و تغییرات چندکلمهای، پنجره زمانی را بهطور مساوی تقسیم میکنند. - تنظیم زمانی: کاربران میتوانند زمان شروع هر خط را (مثلاً از ۱۲.۴۸۰ به ۱۲.۶۰۰) تغییر دهند تا خطاهای جزئی مدل Whisper را بپوشانند.
- مدیریت خطوط: دکمههای افزودن یا حذف خطوط اجازه میدهد جملاتی که هوش مصنوعی بهاشتباه ادغام یا تفکیک کرده بود، اصلاح شوند.
- برچسبگذاری: کلمات با حروف بزرگ بهطور خودکار برچسب PROPN میگیرند که وزن بصری نمایش آنها را تغییر میدهد.
برای کاربر نهایی، این یعنی «جعبه سیاه» هوش مصنوعی اکنون به یک پیشنویس تبدیل شده است. دیگر نیازی نیست امیدوار باشید مدل نام یک هنرمند ناشناخته را درست حدس بزند؛ شما بهسادگی آن را اصلاح کرده و روی Apply & re-render کلیک میکنید.
جهت ذخیره این تغییرات برای جلسات آینده، میتوانید فایل lyric_data.json را دانلود کنید. دفعهی بعد که صدا را بارگذاری میکنید، کافی است این فایل را بکشید و رها کنید تا بدون عبور از لولهی پردازش، مستقیماً به مرحله پخش برسید.
گام بعدی شما
- اگر از Lyrisee استفاده میکنید، برای هر پروژه یک فایل JSON ذخیره کنید تا در ویرایشهای آتی زمان استنتاج را حذف کنید.
- در هنگام ویرایش، ابتدا روی اصلاح کلمات کلیدی (اسامی خاص) تمرکز کنید و سپس زمانبندیهای ریز را تنظیم کنید.
- خروجیهای نهایی را با قابلیت برچسبگذاری PROPN بررسی کنید تا وزن بصری متن با ضربآهنگ موسیقی همخوان شود.
اما این تنها بخشی از ماجراست؛ بررسی اینکه چگونه مدلهای کوچکتر در بازشناسی گفتار تخصصی جایگزین غولها میشوند را در گزارش بعدی خواهیم خواند.



گفتگو