تصور کنید تنها از روی لحن صدای شما، پیش از آن یک کلمه دربارهی حالتان بگویید، شدت افسردگی یا اضطرابتان با دقت علمی تشخیص داده شود. این دیگر یک سناریوی تخیلی نیست، بلکه نتیجهی رویکردی است که در آن «چگونگی بیان» بر «چه چیزی گفته میشود» اولویت مییابد.
طبق گزارشی که در ۱۲ مه ۲۰۲۶ در arxiv.org منتشر شد، یک مدل یادگیری عمیق (Deep Learning) توانسته است به دقت ۷۱ درصدی در تشخیص اختلالات خلقی دست یابد. در پوشش پیشین ما از کاربردهای پزشکی هوش مصنوعی، دیدیم که تحلیل دادههای متنی برای تشخیص بیماریها رایج بود، اما اکنون میدان نبرد به سیگنالهای خام صوتی منتقل شده است. برای سالها، سیستمهای تشخیص سلامت روان بر «ویژگیهای پارالینگویستیک» متکی بودند؛ یعنی نشانگرهای فرکانسی که توسط انسانها تعریف میشدند و اغلب الگوهای غیرخطی و ظریف صدا را نادیده میگرفتند.
به نقل از پژوهشی به سرپرستی نوآ استین (Noah Stein)، این سیستم بر سه محور اصلی استوار است:
- استخراج مستقیم نشانگرهای زیستی (Biomarkers) مستقل از محتوا از سیگنالهای خام صوتی.
- ترکیب این نشانگرها با ویژگیهای واژگانی (کلمات بهکاررفته در صحبت).
- اعتبارسنجی نتایج روی یک گروه مجزای شامل ۵,۰۰۰ شرکتکننده.
این تیم برای تحلیل دادهها از یک مجموعهداده اختصاصی شامل ۶۵,۰۰۰ عبارت صوتی از ۲۳,۰۰۰ فرد در ایالات متحده استفاده کرده است. برای تسهیل در اعتبارسنجی متنباز، مدل نهایی در پلتفرم HuggingFace منتشر شده است.
از منظر فنی، این موفقیت نقطه عطفی در تغییر رویکرد از «مهندسی ویژگی» به «مقیاس داده» است. جداسازی نشانگرهای زیستی از محتوای زبانی، ریسک سوگیریهای فرهنگی و زبانی را کاهش داده و قدرت پیشبینی مدل را در محیطهای عملیاتی افزایش میدهد.
گام بعدی شما
- توسعهدهندگان میتوانند وزنهای مدل در HuggingFace را دریافت کرده و روی مجموعهدادههای غیرانگلیسی آزمایش کنند.
- بررسی میزان همبستگی بین نشانگرهای صوتی و تشخیصهای بالینی سنتی در محیطهای درمانی.
- تحلیل اثر متغیرهای محیطی (نویز پسزمینه) بر دقت تشخیص مدل در دنیای واقعی.
اما چالش اصلی اکنون تعمیمپذیری این مدل در فرهنگهای مختلف است؛ بررسی اینکه آیا این نشانگرهای صوتی در زبانهای غیرانگلیسی نیز صادق هستند یا خیر، در گزارشهای آتی ما دنبال خواهد شد.




گفتگو