
PhantomBench: نرخ توهم ۸۶.۷ درصدی مدلهای زبانی در مواجهه با مفاهیم ناموجود
یک بنچمارک گسترده نشان میدهد مدلهای زبانی پیشرو در تشخیص مفاهیم ناموجود ناتوان هستند و نرخ توهم آنها در پاسخ به پرسشهای القایی به ۸۶.۷٪ میرسد. این یافته لزوم تغییر تمرکز از…









