تصور کنید بتوانید تنها با نوشتن چند جمله دربارهی یک حس یا سبک، یک نت موسیقی دقیق داشته باشید که در هر نرمافزار آهنگسازی قابل ویرایش باشد. این قابلیت اکنون با استفاده از مدل Llama-3.3-70b و یک ابزار مبتنی بر پایتون، مستقیماً از طریق ترمینال در دسترس توسعهدهندگان قرار گرفته است.
طبق گزارش منتشرشده در ۲۷ ژوئن ۲۰۲۶، این پیادهسازی پلی بهینه بین زبان طبیعی و فایلهای استاندارد MIDI ایجاد میکند. در دنیای تولید موسیقی، معمولاً باید بین مدلهای سنگین صوتی با تأخیر بالا یا سیستمهای الگوریتمی خشک و انعطافناپذیر یکی را انتخاب کرد. این روش جدید با استفاده از نمادگذاری ABC — که یک فرمت متنی برای موسیقی است و شبیه به نوشتن نتها با حروف الفباست — این مشکل را حل میکند. همانطور که در تحلیل قبلی ما دربارهی کاهش هزینههای سنتز صوتی اشاره کردیم، استفاده از واسطهای متنی میتواند هزینههای پردازش را تا ۱۰۰ برابر کاهش دهد. در همین راستا، ابزارهای بصری نیز پیشرفت کردهاند، چنانکه پلتفرم Echonos با تحلیل انرژی صوت به تولید خودکار موزیکویدیوهای عمودی روی آورده است تا تجربه شنیداری-دیداری را بهینهتر کند.
به نقل از آموزشگاه dev.to، این سیستم بر سه رکن اصلی استوار است:
- Oxlo.ai: تأمینکنندهی API مدل است که به دلیل قیمتگذاری بر اساس درخواست، هزینهها را در پرامپتهای طولانی ثابت نگه میدارد.
- OpenAI SDK: به عنوان جایگزینی برای برقراری ارتباط با نقطه انتهایی Oxlo استفاده میشود.
- music21: یک کتابخانه پایتونی است که متنهای خام ABC را تحلیل کرده و آنها را به فایلهای MIDI نوع ۱ تبدیل میکند.
برای جلوگیری از توهم (Hallucination) — مثل وقتی دوستی خاطرهای را اشتباه تعریف میکند — توسعهدهنده از یک پرامپت سیستمی (System Prompt) سختگیرانه استفاده کرده است. این دستور مدل را مجبور میکند تا فقط نمادگذاری معتبر ABC (شامل سرآیندها مثل X:1 و M:4/4) را تولید کند و از هرگونه توضیح اضافه یا علامتهای مارکداون بپرهیزد. این رویکرد یادآور تکنیکهای جدید مدیریت ابزارهای خارجی در AI است که در آن مدل از طریق پرامپتهای دقیق، کنترل بهتری روی خروجیهای ساختاریافته پیدا میکند.
فرآیند کار با ارسال یک توصیف از مود یا سبک به مدل شروع میشود. رشته متنی حاصل از استنتاج (Inference) — لحظهای که مدل واقعاً جواب تولید میکند و شبیه به خودِ آشپزی است نه آموزش آن — پس از حذف فضاهای خالی در یک فایل موقت ذخیره میشود. در نهایت، مبدل music21 این متن را به یک فایل .mid تبدیل میکند که در هر ایستگاه کاری دیجیتال (DAW) باز میشود.
برای برنامهنویسان، این تغییر به معنای گذار از مدلهای گرانقیمت صوتی به پیشبینی ساده متنی است. وقتی موسیقی به جای موج صوتی، به عنوان یک زبان ساختاریافته دیده شود، کاربر میتواند ملودی، گام و تمپو را در چند میلیثانیه و بدون نیاز به GPU تغییر دهد.
این تکنیک ثابت میکند که فرمتهای متنی ساختاریافته برای ایدهپردازی سریع، همچنان بر تولید مستقیم صوت برتری دارند. این روش ماهیت «جعبه سیاه» موسیقی AI را میزداید و به خلقکننده انسانی یک متن قابل خواندن میدهد تا پیش از خروجی نهایی، آن را دستی ویرایش کند.
گام بعدی شما
- خروجی MIDI را به یک سنتسایزر مانند FluidSynth متصل کنید تا فایلهای WAV تولید شوند.
- یک مرحله پسپردازش برای کوانتایز کردن (Quantization) طول نتها اضافه کنید تا صدای حرفهایتری بگیرید.
- مدل را برای سبکهای موسیقی خاص (مثل سنتی یا جاز) با دادههای ABC تخصصی تنظیم کنید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است؛ برای درک چگونگی بهینهسازی این مدلها روی سختافزارهای لبه، به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو