روش ترجمه رفت‌وبرگشتی نقص سیستم‌های ارزیابی چندزبانه را آشکار کرد

گروهی از پژوهشگران به سرپرستی رونالد اسکوروبوگاتو (Ronald Skorobogat) کشف کرده‌اند که بنچمارک‌های (Benchmark) رایج برای ارزیابی مدل‌های پیشتاز هوش مصنوعی، قادر به سنجش واقعی تسلط بر زبان‌های مختلف نیستند. نتایج این پژوهش که در آرکایو (arXiv) منتشر شده، نشان می‌دهد این چارچوب‌های ارزیابی در عمل توانایی ریاضی و یادآوری اطلاعات را می‌سنجند نه مهارت واقعی در زبان‌های متعدد.

این کشف از مشاهده‌ای غیرمنتظره سرچشمه می‌گیرد: مدل‌هایی با قابلیت تفکر (Thinking variants) در بنچمارک‌های سنتی چندزبانه عملکرد بهتری نسبت به مدل‌های آموزش‌دیده (Instruct variants) نشان می‌دهند. اما همین مدل‌ها در وظایف واقعی مانند LMArena ضعیف‌تر عمل می‌کنند. این شکاف نشان می‌دهد روش‌های فعلی آنچه را که کاربران واقعی از هوش مصنوعی چندزبانه انتظار دارند، نمی‌سنجند.

پژوهشگران برای رفع این مشکل، روش «ترجمه رفت‌وبرگشتی» را پیشنهاد کرده‌اند. در این رویکرد، متن از زبان مبدأ به زبان مقصد ترجمه و سپس به زبان اصلی بازگردانده می‌شود. شکاف‌های معنایی بین متن اصلی و نتیجه نهایی، ناتوانی‌های مدل در تولید چندزبانه را آشکار می‌کند. این روش با رتبه‌بندی کاربران در LMArena همبستگی ۰.۹۴ نشان داده است.

از مزایای عملی این روش می‌توان به عدم نیاز به ترجمه مرجع انسانی اشاره کرد. همچنین نیازی به قاضی چندزبانه توانمندتر از مدل‌های تحت آزمایش نیست. تیم پژوهشی همچنین معیار «گمشده در ترجمه» (Lost in Translation یا LiT) را معرفی کرده‌اند. این بنچمارک طیف وسیعی از زبان‌های پرکاربرد جهان را پوشش می‌دهد تا سناریوهای واقعی‌تری برای ارزیابی فراهم کند.

برای صنعت هوش مصنوعی، این یافته‌ها به معنای بازنگری در نحوه سنجش توانایی‌های چندزبانه است. سازمان‌هایی که مدل‌های چندزبانه توسعه و مستقر می‌کنند، شاید نیاز داشته باشند به روش‌هایی روی آورند که پیش‌بینی بهتری از عملکرد واقعی دارند. امتیازهای بنچمارکی که همبستگی ضعیفی با رضایت کاربر دارند، دیگر کافی نیستند.

اگر ترجمه رفت‌وبرگشتی جایگزین قابل اتکایی برای تجربه کاربری باشد، می‌تواند توسعه مدل‌ها را تسریع کند. ارزیابی‌های سریع‌تر و ارزان‌تر بدون نیاز به ترجمه‌های انسانی ممکن می‌شود. این موضوع برای زبان‌هایی با منابع محدود annotation بسیار ارزشمند است.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

روش ترجمه رفت‌وبرگشتی نقص سیستم‌های ارزیابی چندزبانه را آشکار کرد

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

روش ترجمه رفت‌وبرگشتی نقص سیستم‌های ارزیابی چندزبانه را آشکار کرد

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

روش ترجمه رفت‌وبرگشتی نقص سیستم‌های ارزیابی چندزبانه را آشکار کرد

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

روش ترجمه رفت‌وبرگشتی نقص سیستم‌های ارزیابی چندزبانه را آشکار کرد

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران