مدلهای زبانی بزرگ بهطور فزاینده در انجام وظایف تأیید صحت به کار گرفته میشوند؛ جایی که یک مدل چند پاسخ کاندید تولید میکند و مدل دیگری بدون دسترسی به پاسخهای مرجع، درستی آنها را ارزیابی مینماید. پژوهشگران این حوزه در مطالعهای جامع که در پلتفرم ArXiv منتشر شده، پویاییهای تأیید را در سه بعد حیاتی بررسی کردند: سطح دشواری مسئله، توانمندی مدل تولیدکننده و قابلیت مدل تأییدکننده. این تحقیق تجربی ۱۲ معیار سنجش را پوشش داد که شامل استدلال ریاضی، بازیابی دانش و وظایف استدلال زبانی طبیعی بود. تیم پژوهشی ۱۴ مدل متنباز با پارامترهایی از ۲ تا ۷۲ میلیارد را به همراه GPT-4o آزمایش کرد تا درک عمیقی از تغییرات اثربخشی تأیید در شرایط گوناگون به دست آورد. یافتهها سه الگوی کلیدی را آشکار ساخت. نخست اینکه تأییدکنندهها در گواهیدهی مطمئن پاسخهای درست برای مسائل آسان در مقایسه با مسائل دشوار عملکرد بسیار بهتری دارند. دوم اینکه خطاهای تولیدشده توسط مدلهای ضعیفتر آسانتر از اشتباهات مدلهای قویتر قابل شناسایی هستند؛ احتمالاً به این دلیل که مدلهای توانمندتر خطاهای ظریفتر و پیچیدهتری تولید میکنند. سوم اینکه اگرچه توانایی تأیید عموماً با قابلیت حل مسئله خود تأییدکننده همبستگی دارد، اما این رابطه بسته به دشواری مسئله نوسان میکند. این بینشها فرصتهای بهینهسازی عملی برای برنامههای مقیاسبندی در زمان آزمایش فراهم میسازد. نکته قابل توجه آنکه شکاف عملکردی بین Gemma2-9B و Gemma2-27B با اعمال تأییدکننده برای هر دو مدل، ۷۵.۷ درصد کاهش یافت؛ این نشان میدهد راهبردهای تأیید میتوانند تا حد زیادی ضعف مدلهای پایه را جبران کنند و تیمهایی با منابع محاسباتی محدود ممکن است با ترکیب تولیدکنندههای متعادل و تأییدکنندههای توانمند به نتایج رقابتی دست یابند. با این حال، مطالعه محدودیت مهمی را نیز شناسایی کرد: تأییدکنندههای قوی همیشه بر ضعیفترها برتری ندارند. زمانی که هر دو در ارائه سود تأییدی معنادار ناکام بمانند، صرفاً افزایش توانمندی تأییدکننده نمیتواند چالشهای بنیادین تأیید را برطرف کند. این یافته انتظارات درباره استفاده از مدلهای قدرتمندتر برای مسائل تأیید را تعدیل میکند و بر ضرورت نوآوریهای معماری و الگوریتمی به جای صرفاً مقیاسبندی تأکید دارد.

گفتگو