اگر تصور میکنید رتبهبندیهای Elo در مدلهای زبانی تنها بازتابی از «حس خوب» (Vibe) یا طولانی بودن پاسخها هستند، باید در این باور تجدیدنظر کنید. طبق یافتههای جدید، این رتبهها بسیار دقیقتر از آن چیزی هستند که منتقدان تصور میکردند.
بر اساس مطالعهای که در ۹ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، رتبهبندیهای Elo حاصل از مقایسههای زوجی، همبستگی اسپیرمن بیش از ۰.۹ با دقت واقعی دارند. این نتیجه، ترس رایج در جامعهی فنی مبنی بر اینکه بنچمارکهای مدل زبانی بزرگ (LLM) تنها بر اساس ترجیحات ظاهری و نه صحت استدلالی شکل میگیرند را به چالش میکشد.
همانطور که در تحلیلهای پیشین ما دربارهی چالشهای ارزیابی مدلهای زاینده اشاره کردیم، جدال میان دقت فنی و ترجیحات سطحی همواره یک نقطهی بحث بوده است. در حال حاضر، ارزیابی مدلهای هوش مصنوعی زاینده (Generative AI) بهطور گسترده بر مقایسههای زوجی متکی است؛ جایی که یک مدلِ داور، یکی از دو پاسخ را بر اساس کیفیت انتخاب میکند. این رویکرد در ارزیابی، با متدهای پیشرو در همراستاسازی مدلها همسو است؛ برای نمونه، چارچوب RePO تلاش میکند تا یادگیری ترجیحات را از طریق کمینهسازی حسرت به جای بیشینهسازی پاداش بهبود ببخشد.
تیم پژوهشی به سرپرستی Mina Remeli با تبدیل پنج بنچمارک شناختهشده به ارزیابیهای تولیدی، دست آفتاهای فنی زیر را شناسایی کردند:
- دستیابی به همبستگی اسپیرمن بالای ۰.۹ بین رتبههای Elo و دقت واقعی.
- عملکرد بهمراتب بهتر رتبهبندیهای Elo نسبت به معیارهای ارزیابی مستقیم در شرایطی که مدلِ داور ضعیف است.
- تأثیر اندک استایل و سوگیری داور بر رتبهبندی نهایی مدلها.
- شناسایی پدیدهی «تکرار» (Echoing) یا بازگویی پاسخ نهایی، بهعنوان عامل اصلی سوگیری در مواردی که هر دو پاسخ درست یا هر دو غلط بودند.
این نتایج برای جامعهی فنی تأیید میکند که Leaderboardهای مبتنی بر Elo میتوانند جایگزینی قابلاعتماد برای سنجش دقت باشند. اگرچه «هک کردن استایل» ممکن است، اما قدرت آن برای تغییر جایگاه مدلهای واقعاً برتر کافی نیست. شناسایی اثر Echoing نیز مسیری مشخص برای ارتقای مهندسی پرامپت (Prompt Engineering) در طراحی داوران فراهم میکند تا سوگیریهای غیرفنی حذف شوند.
گام بعدی شما
- بررسی میزان تداوم اثر Echoing در معماریهای مختلف مدلهای داور برای ساخت چارچوبهای ارزیابی مقاومتر.
- بازنگری در پرامپتهای داوری برای کاهش اثر تکرار پاسخ نهایی.
- استفاده از رتبهبندی Elo به عنوان یک پروکسی معتبر برای دقت در پروژههای مقیاسپذیر.
اما تأثیر این یافتهها بر نحوه طراحی مدلهای استدلالی آینده چیست؟ در تحلیل ما دربارهی مدل استدلالی (Reasoning Model) پاسخ را بیابید.
گفتگو