تصور کنید مدل هوش مصنوعی شما نه تنها بفهمد چه گفته شده، بلکه دقیقاً بداند صدا از کدام جهت میآید و در چه فضایی تولید شده است. این توانایی، یعنی درک مکان صوتی، یکی از بزرگترین نقاط کور در مدلهای چندوجهی (Multimodal) فعلی بود که حالا در حال تغییر است.
تا پیش از این، اکثر مدلهای زبانی صوتی، دادهها را به صورت سیگنالهای تککاناله و «تخت» پردازش میکردند و تمامی سرنخهای مکانی را در مراحل اولیه حذف میکردند. این موضوع باعث میشد AI در محیطهای واقعی یا تجربههای غوطهور، عملاً کور باشد. همانطور که در تحلیل قبلی ما دربارهی محدودیتهای حافظه GPU در تنظیم دقیق مدلها اشاره کردیم، چالش اصلی همواره تعادل بین افزودن قابلیتهای جدید و مدیریت هزینههای محاسباتی است؛ Spatial-Omni دقیقاً با بهینهسازی نحوه تزریق مودالیتههای جدید، از بازآموزیهای سنگین جلوگیری میکند.
بر اساس گزارش ۱۰ ژوئن ۲۰۲۶ در arxiv.org، این سیستم از یک رمزگذار SO (SO-Encoder) استفاده میکند تا صدای فضایی را در قالب امبیسونیکس مرتبه اول (First-Order Ambisonics یا FOA) به عنوان یک مودالیته مستقل وارد مدل کند. برای عملیاتی کردن این ادعا، پژوهشگران سه منبع کلیدی ساختهاند:
- SO-Dataset: کتابخانهای شامل ۴۰۰ هزار کلیپ صوتی فضایی FOA.
- SO-QA: مجموعهدادهای با ۲.۱ میلیون جفت پرسش و پاسخ مکانی.
- SO-Bench: بنچمارکی شامل ۱۶ زیر-وظیفه، از جمله تخمین مکان و تشخیص پایه.
از منظر فنی، این رویکرد پارادایم را از «درک کلی صدا» به «هوش مکانی» تغییر میدهد. با تبدیل توکنهای فضایی به یک هزینه متنی محدود,پژوهشگران ثابت کردند که میتوان ادراک سهبعدی را بدون تخریب قابلیتهای پایه، روی یک مدل زبانی بزرگ (LLM) لایه ببندید. این پیشبینی را مطرح میکند که عاملهای هوش مصنوعی در آینده میتوانند تنها با تکیه بر سرنخهای صوتی، محیطهای فیزیکی را نقشهبرداری کرده و در آنها جابهجا شوند.
گام بعدی شما
- بررسی انتشار متنباز SO-Bench برای ارزیابی قدرت استدلال سهبعدی مدلهای فعلی.
- مطالعه مستندات SO-Dataset برای درک نحوه نمایش دادههای صوتی در قالب FOA.
- آزمایش مدلهای چندوجهی روی دادههای صوتی استریو برای سنجش میزان «تخت شدن» سیگنال در مدلهای قدیمی.
اما این تحول در صدا تنها بخشی از پازل است؛ برای درک اینکه چگونه این دادههای مکانی با بینایی ماشین ترکیب میشوند، تحلیل ما دربارهی مدلهای جهان-مدل (World Models) را دنبال کنید.


گفتگو