گروهی از پژوهشگران به سرپرستی رونالد اسکوروبوگاتو (Ronald Skorobogat) کشف کردهاند که بنچمارکهای (Benchmark) رایج برای ارزیابی مدلهای پیشتاز هوش مصنوعی، قادر به سنجش واقعی تسلط بر زبانهای مختلف نیستند. نتایج این پژوهش که در آرکایو (arXiv) منتشر شده، نشان میدهد این چارچوبهای ارزیابی در عمل توانایی ریاضی و یادآوری اطلاعات را میسنجند نه مهارت واقعی در زبانهای متعدد.
این کشف از مشاهدهای غیرمنتظره سرچشمه میگیرد: مدلهایی با قابلیت تفکر (Thinking variants) در بنچمارکهای سنتی چندزبانه عملکرد بهتری نسبت به مدلهای آموزشدیده (Instruct variants) نشان میدهند. اما همین مدلها در وظایف واقعی مانند LMArena ضعیفتر عمل میکنند. این شکاف نشان میدهد روشهای فعلی آنچه را که کاربران واقعی از هوش مصنوعی چندزبانه انتظار دارند، نمیسنجند.
{{img:0}}
پژوهشگران برای رفع این مشکل، روش «ترجمه رفتوبرگشتی» را پیشنهاد کردهاند. در این رویکرد، متن از زبان مبدأ به زبان مقصد ترجمه و سپس به زبان اصلی بازگردانده میشود. شکافهای معنایی بین متن اصلی و نتیجه نهایی، ناتوانیهای مدل در تولید چندزبانه را آشکار میکند. این روش با رتبهبندی کاربران در LMArena همبستگی ۰.۹۴ نشان داده است.
از مزایای عملی این روش میتوان به عدم نیاز به ترجمه مرجع انسانی اشاره کرد. همچنین نیازی به قاضی چندزبانه توانمندتر از مدلهای تحت آزمایش نیست. تیم پژوهشی همچنین معیار «گمشده در ترجمه» (Lost in Translation یا LiT) را معرفی کردهاند. این بنچمارک طیف وسیعی از زبانهای پرکاربرد جهان را پوشش میدهد تا سناریوهای واقعیتری برای ارزیابی فراهم کند.
برای صنعت هوش مصنوعی، این یافتهها به معنای بازنگری در نحوه سنجش تواناییهای چندزبانه است. سازمانهایی که مدلهای چندزبانه توسعه و مستقر میکنند، شاید نیاز داشته باشند به روشهایی روی آورند که پیشبینی بهتری از عملکرد واقعی دارند. امتیازهای بنچمارکی که همبستگی ضعیفی با رضایت کاربر دارند، دیگر کافی نیستند.
اگر ترجمه رفتوبرگشتی جایگزین قابل اتکایی برای تجربه کاربری باشد، میتواند توسعه مدلها را تسریع کند. ارزیابیهای سریعتر و ارزانتر بدون نیاز به ترجمههای انسانی ممکن میشود. این موضوع برای زبانهایی با منابع محدود annotation بسیار ارزشمند است.

گفتگو