اگر هنوز تصور میکنید برای رسیدن به دقت بالا در تشخیص گفتار به دکودرهای عظیم نیاز دارید، سخت در اشتباهید. باید بدانید که کلید سرعت و دقت در نسل جدید هوش مصنوعی زاینده (Generative AI)، نه در پیچیدگی، بلکه در نحوه بهرهبرداری از دادههای متنی نهفته است.
به نقل از پژوهشی که توسط آلبرت زایر (Albert Zeyer) در ۳۰ آوریل ۲۰۲۶ منتشر شد، مدلهایی که بر انکودر (Encoder) متمرکز هستند، میتوانند بدون تحمیل بار محاسباتی دکودرهای سنگین، به نتایجی در سطح استانداردهای جهانی برسند.
بر اساس مستندات منتشر شده در arxiv.org، این معماریها با انتقال بار محاسباتی به انکودر، وابستگی به دکودر (Decoder) را در مرحلهی استنتاج (Inference) کاهش میدهند.
سه سازوکار کلیدی برای این تحول عبارتند از:
- تطبیق مودالیته (Modality matching) برای همراستاسازی نمایشهای متنی و صوتی.
- نمونهبرداری پایینروندهی پویا (Dynamic Downsampling) برای رسیدن به نمایشهای سطح متن در انکودر.
- پیادهسازی مدلهای مدتزمان تصادفی (Random Duration Models).
همانطور که در تحلیلهای پیشین ما دربارهی بهینهسازی مدلهای چندوجهی اشاره کردیم، حذف گلوگاههای محاسباتی همواره اولویت اول توسعهدهندگان است. آزمایشهای انجام شده روی مجموعه دادههای LibriSpeech نشان داد که یک انکودر بزرگتر در کنار یک دکودر کوچکتر، میتواند عملکرد معماریهای سنتی را به کلانی یا حتی فراتر از آنها ببرد.
نکتهی تکاندهنده این است که پیکربندیهای ساده، مانند مدلهای مدتزمان تصادفی، اغلب موثرتر از جایگزینهای پیچیده هستند. این یعنی خط لولهی آموزش تشخیص گفتار را میتوان بدون کاهش دقت، به شدت ساده کرد.
این چرخش به سمت تسلط انکودر، مشکل تأخیر (Latency) در سیستمهای تبدیل گفتار به متن را حل میکند. کاهش اندازه دکودر مستقیماً به پاسخدهی سریعتر منجر میشود که برای کاربردهای بلادرنگ حیاتی است.
اما این بهینهسازی تنها بخشی از پازل است؛ تأثیر این معماری بر مصرف انرژی در تراشههای نسل جدید را در گزارش بعدی بررسی میکنیم.
گام بعدی شما
- بررسی معماریهای Encoder-dominated برای کاهش هزینه استنتاج.
- آزمایش مدلهای مدتزمان تصادفی در جایگزینی با خط لولههای پیچیده.
- بهرهگیری از دادههای متنی خالص برای تقویت نمایشهای زبانی در مدلهای صوتی.




گفتگو