اگر هنوز رتبهی مدلهای خود را در لیدربوردهای عمومی معیار موفقیت میدانید، احتمالاً در تلهی یک توهم فنی افتادهاید. حقیقت این است که وقتی یک معیار تبدیل به تنها هدف شود، دیگر معیار قابل اعتمادی برای کیفیت نیست؛ پدیدهای که در ادبیات فنی به «قانون گودهارت» معروف است.
به نقل از Hugging Face، این پلتفرم در ۶ می ۲۰۲۶ مجموعهای از دادههای ارزیابی خصوصی را به لیدربورد باز ASR (Open ASR Leaderboard) اضافه کرد تا با پدیدهی بهینهسازی افراطی برای بنچمارک (Benchmaxxing) مقابله کند. طبق اعلام این پلتفرم، این دادهها که توسط شرکتهای Appen Inc. و DataoceanAI تأمین شدهاند، از دید توسعهدهندگان پنهان میمانند تا ریسک آلودگی دادهها (Data Contamination) و بهینهسازی مدلها صرفاً برای کسب رتبهی بالاتر حذف شود.

این چارچوب جدید به جای تکیه بر مجموعههای عمومیِ اشباعشده، بر تابآوری (Robustness) در دنیای واقعی تمرکز دارد. دادههای خصوصی شامل موارد زیر است:
- گفتارهای برنامهریزیشده و محاورهای از کشورهای آمریکا، انگلیس، هند، کانادا و استرالیا.
- ترکیبی از لغزشهای کلامی خودبهخودی، اسامی خاص و لهجههای متنوع.
- یک نرمالساز (Normalizer) استاندارد بر پایهی مدل Whisper برای حذف علائم نگارشی و یکسانسازی املایی.

همانطور که در تحلیلهای پیشین ما دربارهی آلودگی دادهها در مدلهای زبانی اشاره کردیم، دسترسی مدل به دادههای تست در مرحلهی آموزش، نتایجی دروغین خلق میکند. اکنون کاربران میتوانند با فعال کردن سوئیچ «Private data»، تغییر رتبهی مدل را در مواجهه با دادههای دیدهنشده مشاهده کنند. این شاخص که تغییر رتبه (Rank $\Delta$) نام دارد، فاش میکند که آیا عملکرد مدل واقعی است یا صرفاً نتیجهی آموزش روی دادههای مشابه با بنچمارکهای عمومی است.

بر اساس مستندات این پلتفرم، از زمان راهاندازی در سپتامبر ۲۰۲۳، این لیدربورد بیش از ۷۱۰,۰۰۰ بازدید داشته است. با تفکیک معیارهای «گفتار برنامهریزیشده» از «محاورهای» و «لهجه آمریکایی» از «سایر لهجهها»، این ابزار دیدگاهی جامعتر ارائه میدهد و تأیید میکند که هیچ مدلی نمیتواند برای تمام محیطها و لهجهها یک راهکار واحد باشد.


اما این تنها آغاز ماجراست؛ چالش بعدی، ارزیابی مدلها در محیطهای پرسر و صدای واقعی است که میتواند تعریف جدیدی از کیفیت در بازشناسی خودکار گفتار (Automatic Speech Recognition - ASR) ارائه دهد.
گام بعدی شما
- اگر مدل ASR توسعه میدهید، رتبهی خود را با فعال کردن سوئیچ Private data در Hugging Face بسنجید تا میزان واقعی تعمیمپذیری مدل را بفهمید.
- روی کاهش Rank $\Delta$ تمرکز کنید؛ هرچه این عدد کمتر باشد، مدل شما در دنیای واقعی قابلاعتمادتر است.
- برای ارزیابی دقیقتر، مدل خود را روی دادههای محاورهای (Conversational) به جای دادههای متنی (Scripted) تست کنید.




گفتگو