پژوهشی تازه از آرکایو نشان میدهد مدلهای زبانی بزرگ همچنان در درک معنای انتزاعی با مشکل جدی مواجهاند؛ حتی در حالی که این مدلها در بسیاری از معیارهای پردازش زبان طبیعی نتایج چشمگیری کسب کردهاند.
این پژوهش عملکرد مدلها را با استفاده از SemEval-2021 Task 4 (ReCAM) ارزیابی کرده است. این معیار درک مفاهیم انتزاعی را از طریق پرسشهای گزینهای میآزماید. مدلها باید از میان پنج گزینه انتزاعی، پاسخ صحیح را بر اساس یک متن انتخاب کنند.
نتایج نشان میدهد بیشتر مدلهای بزرگ زبانی، از جمله جیپیتی-۴او، در درک معنای انتزاعی ضعیف هستند؛ چه در حالت zero-shot (بدون نمونه)، چه one-shot (با یک نمونه)، و چه few-shot (با چند نمونه). این موضوع فرضیه رایج را به چالش میکشد که مقیاس بزرگتر مدلها صرفاً به معنای استدلال انتزاعی بهتر است.
بر خلاف مفاهیم عینی که پایه حسی دارند، کلمات انتزاعی مانند «عدالت»، «آزادی» یا «هویت» به تجربه فیزیکی متصل نیستند. همین موضوع آنها را برای مدلهایی که عمدتاً روی الگوهای متنی آموزش دیدهاند، دشوارتر میکند.
{{img:0}}
جالب توجه است که مدلهای آموزشدیده اختصاصی مانند برت و روبرتا عملکرد قابل توجهی بهتری نسبت به مدلهای بزرگ زبانی در حالت بدون نمونه نشان دادند. این یافته حاکی از آن است که آموزش مبتنی بر وظیفه با دادههایی که روابط معنایی را هدف گرفتهاند، ممکن است مؤثرتر از تکیه بر درک زبان عمومی باشد.
پژوهش همچنین یک دستهبند کننده توجه دوجهته پیشنهاد کرده است. این رویکرد از استراتژیهای شناختی انسان الهام گرفته شده و به متن و گزینهها به طور همزمان توجه میکند. نتایج آزمایشی بهبود دقت ۴.۰۶٪ در Task 1 و ۳.۴۱٪ در Task 2 را نشان داد.
این پژوهش پیامدهای مهمی برای جامعه هوش مصنوعی دارد؛ به ویژه با توجه به تلاش توسعهدهندگان برای رسیدن به هوش مصنوعی عمومی. اگر مدلهای پیشروی امروزی هنوز در tasksی که انسانها به راحتی انجام میدهند مشکل دارند، شکافهای اساسی در درک معنایی وجود دارد که صرفاً با بزرگتر کردن مدلها قابل پر کردن نیست.
نتایج به نیاز فوری برای چارچوبهای ارزیابی و روشهای آموزشی تازه اشاره میکنند. کارهای آینده ممکن است روی آموزش چندوجهی، رویکردهای عصبی-نمادین یا معماریهای الهامگرفته از شناخت متمرکز شوند.

گفتگو