تصور کنید هوش مصنوعی سازمان شما پاسخی کاملاً درست میدهد، اما نیمی از اطلاعات حیاتی را حذف کرده است. این همان «پارادوکس تکمیل» است که میتواند کل جریان تصمیمگیری یک شرکت را به خطر اندازد.
به نقل از مقالهای که در ۳۰ آوریل ۲۰۲۶ در arxiv.org منتشر شد، چارچوب ارزیابی جدیدی به نام EnterpriseDocBench شکافی تکاندهنده را افشا کرده است: در حالی که سیستمها به دقت واقعی ۸۵.۵٪ در ادعاهای بیانشده رسیدند، میانگین «تکمیل پاسخ» تنها ۰.۴۰ بود. به زبان ساده: هوش مصنوعی زاینده (Generative AI) وقتی حرف میزند درست میگوید، اما بیشتر اوقات نمیداند چه چیزهایی را باید بگوید.
این پژوهش با استفاده از GPT-5 به عنوان مدل تولیدکننده در ۵ حوزه سازمانی، سه خط لوله بازیابی را مقایسه کرد. نتایج، وسواس فعلی صنعت روی بردار معنایی (Embedding) را به چالش میکشد:
- بازیابی ترکیبی (Hybrid) با امتیاز ۰.۹۲ در صدر قرار گرفت.
- روش BM25 با امتیاز ۰.۹۱ در رده دوم بود.
- بردارهای معنایی با امتیاز ۰.۸۳ بهطور قابلتوجهی عقب ماندند.
همانطور که در تحلیلهای پیشین ما دربارهی چالشهای تولید بازیابیافزا (Retrieval-Augmented Generation - RAG) اشاره کردیم، مشکل اصلی همواره در لایهی بازیابی بوده است، اما این دادهها ابعاد جدیدی از این بحران را نشان میدهند.
بر اساس مستندات این تحقیق، نرخ توهم (Hallucination) رابطهای خطی با طول سند ندارد، بلکه یک منحنی U-شکل را دنبال میکند؛ یعنی اسناد بسیار کوتاه و بسیار بلند، بیشترین توهمات (به ترتیب ۲۸.۱٪ و ۲۳.۸٪) را ایجاد میکنند، در حالی که اسناد با طول متوسط تنها ۹.۲٪ توهم دارند.
شگفتآورتر آن است که «آبشار کیفیت» وجود ندارد. مهندسان تصور میکنند پارسینگ بهتر منجر به بازیابی بهتر و در نهایت تولید پاسخ بهتر میشود، اما همبستگی بین پارسینگ و بازیابی تنها ۰.۱۴ و بین بازیابی و تولید تنها ۰.۰۲ است. این یعنی بهینهسازی تکمرحلهای لولهی پردازش، لزوماً خروجی نهایی را بهبود نمیبخشد.
در حالی که معماریهایی مثل ColPali و ColQwen2 و رویکردهای عاملمحور (Agentic) نویدبخش آیندهای بهتر هستند، اما هنوز به صورت کامل ادغام نشدهاند. این تنها آغاز ماجراست؛ اثر موجگونهی این یافتهها بر طراحی عاملهای (Agents) سازمانی را در گزارش بعدی بررسی خواهیم کرد.
گام بعدی شما
- اگر از RAG استفاده میکنید، معیارهای ارزیابی خود را از «دقت» به «تکمیل» تغییر دهید.
- به جای تکیه مطلق بر بردارهای معنایی، استراتژی بازیابی ترکیبی (Hybrid) را پیادهسازی کنید.
- اسناد خود را به قطعاتی با طول متوسط تقسیم کنید تا نرخ توهمات کاهش یابد.




گفتگو