مدلهای زبانی بزرگ اغلب در مواجهه با درخواستهای مبهم کاربران دچار مشکل میشوند. این ابهام میتواند منجر به ناامیدی کاربر و حتی خطرات امنیتی شود؛ چرا که مدل ممکن است به یک تفسیر نادرست متعهد شود بدون آنکه بداند اشتباه کرده است.
{{img:0}}
پژوهشگران راهکاری نوین پیشنهاد کردهاند: تولید پاسخهای ساختاریافتهای که چندین برداشت معتبر را فهرست میکنند و هر کدام را با پاسخ متناظرش همراه میسازند. این روش از یادگیری تقویتی (Reinforcement Learning) بهره میبرد و از دو هدف پاداش همزمان استفاده میکند: بازیابی (Recall) برای حداکثر کردن پوشش برداشتهای معتبر، و دقت (Precision) برای حذف جایگزینهای نادرست.
{{img:1}}
نکته کلیدی این رویکرد آن است که برای آموزش آن تنها به چند پاسخ معتبر به ازای هر ورودی نیاز است. نیازی به سؤالهای رفع ابهام یا تفسیرهای صریح نیست.
آزمایشها بر روی پرسش و پاسخ مکالمهای و تجزیه معنایی (Semantic Parsing) نشان دادهاند که این روش به پوشش بالاتری از پاسخهای معتبر دست مییابد. ارزیابی انسانی نیز تأیید کرده که برداشتهای پیشبینیشده معنادار هستند و پاسخهای متناظرشان را توضیح میدهند.
این رویکرد از چند جهت برجسته است: شفافیت از طریق برداشتهای صریح، کارایی با یک مرحله تولید، و پشتیبانی از کاربردهای بعدی با قالب خروجی ساختاریافته. این پژوهش گامی مهم در مسیر ساخت سیستمهای هوش مصنوعی قابل اعتمادتر است؛ سیستمهایی که به جای تکیه بر فرضیات potentially نادرست، ابهام را میپذیرند.

گفتگو