اگر تصور میکنید مدلهای زبانی پیشرو میدانند چه زمانی باید سکوت کنند، سخت در اشتباهید. طبق یافتههای جدید، این مدلها حتی در سادهترین آزمونهای فروتنی — یعنی تشخیص اینکه چه چیزی را نمیدانند — شکست میخورند.
این آسیبپذیری در استقرار مدلها در محیطهای حساس، جایی که تکیه کورکورانه به هوش مصنوعی زاینده (Generative AI) میتواند منجر به خسارات جدی شود، حیاتی است. همانطور که در تحلیلهای پیشین ما دربارهی مبانیسازی (Grounding) مدلهای زبانی اشاره کردیم، مشکل توهمات صرفاً یک خطای تصادفی نیست، بلکه ریشه در توزیع دادهها و ساختار آموزش دارد.
به نقل از پژوهشی که در ۱۰ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، مدلهای زبانی در مواجهه با مفاهیم ناموجود، نرخ توهمی تا ۸۶.۷٪ را تجربه میکنند. پژوهشگران برای اثبات این ادعا، PhantomBench را معرفی کردند؛ مجموعهدادهای شامل بیش از ۶۰,۰۰۰ اصطلاح و موجودیت ساختگی که از مفاهیم دنیای واقعی مشتق شدهاند. در بررسی ۲۱ مدل با اندازههای مختلف، نتایج تکاندهندهای به دست آمد:
- ناتوانی گسترده در خودداری از پاسخدهی هنگام مواجهه با موجودیتهای ناموجود.
- افزایش شدید توهمات زمانی که متن پرامپت، پیشفرض میگیرد مفهوم مورد نظر وجود دارد.
- تکرار این نرخ شکست در هر دو دسته مدلهای کوچک و مدلهای کلاس پیشرو (Frontier-class).
برای جامعهی فنی، این نتایج هدف بنچمارکها را تغییر میدهد؛ به جای تلاش برای بهبود دقت واقعیات، باید بر «منطق خودداری» (Abstention Logic) تمرکز کرد. به نظر ما، تکنیکهای فعلی همراستاسازی (Alignment) احتمالاً مدلها را بیش از حد به «سودمند بودن» عادت دادهاند و در نتیجه، مدل به جای پذیرش جهل، برای حدس زدن پاداش میگیرد.
گام بعدی شما
- اگر توسعهدهنده هستید، از خطلوله PhantomBench برای ایجاد مجموعههای تست اختصاصی در دامنه (Domain) کاری خود استفاده کنید.
- استراتژیهای اعتبارسنجی خروجی را از «تأیید صحت» به «آزمون وجود» تغییر دهید.
- نتایج این مطالعه را با مدلهای استدلالی جدید مقایسه کنید تا ببینید آیا زنجیره تفکر (Chain-of-Thought) نرخ توهم را کاهش میدهد یا خیر.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.



گفتگو