اگر برای مرور سیستماتیک منابع علمی به هوش مصنوعی زاینده (Generative AI) تکیه میکنید، احتمالاً در حال پذیرش ریسکهای جدی در اعتبار پژوهش خود هستید. باید بدانید که دقت ظاهری در خلاصههای تولید شده، لزوماً به معنای صحت دادههای استخراج شده نیست.
با ادغام گستردهی مدلهای زبانی بزرگ (Large Language Models) در جریانهای کاری دانشگاهی، صنعتی شکل گرفته که تنها بر بنچمارکهای کامپیوتر-محور متکی است. همانطور که در تحلیلهای پیشین ما دربارهی توهمات مدلهای زبانی اشاره کردیم، این رویکرد منجر به ایجاد یک «توهم شفافیت» شده است؛ جایی که یک متن صیقلخورده، فقدان مبنیسازی (Grounding) در منابع واقعی را میپوشاند.
در ۱۲ می ۲۰۲۶، مطالعهای در arXiv منتشر شد که یک چارچوب ارزیابی ترکیبی (شامل معیارهای انسانی و کامپیوتری) را برای بررسی ابزارهای پرسش و پاسخ و مرور ادبیات معرفی کرد. یافتههای کلیدی این گزارش عبارتند از:
- ابزارهای Q&A در خلاصهسازی کلی موفقاند اما در استخراج دادههای دقیق ناتوان هستند.
- دقت هوش مصنوعی توضیحپذیر (Explainable AI) بهشدت پایین است و بخشهای برجستهشده از منابع، اغلب از پاسخهای تولید شده پشتیبانی نمیکنند.
- ابزارهای مرور ادبیات فاقد شفافیت در انتخاب پایگاه داده هستند و بنابراین برای مرورهای سیستماتیک نامناسباند.
به نقل از این گزارش، این شکستها هدف بنچمارکها را از «دقت خام» به «قابلیت تأیید» تغییر میدهد. وقتی شواهد ارائه شده توسط AI نادرست باشد، ابزار تنها شکست نمیخورد، بلکه فعالانه پژوهشگر را گمراه میکند. این امر ضرورت حضور انسان در چرخه (Human-in-the-loop) برای هر خروجی علمی حساس را دوچندان میکند.
گام بعدی شما
- به جای ابزارهایی که وعدهی مرور کاملاً خودکار میدهند، از ابزارهایی استفاده کنید که لاگهای شفافی از پایگاه داده ارائه میدهند.
- منتظر ظهور بنچمارکهای انسان-محور جدید باشید که زمان واقعی صرف شده برای تأیید ادعاهای AI را اندازهگیری میکنند.
اما تأثیر این عدم دقت بر توسعهی مدلهای استدلالی جدید، ابعاد پیچیدهتری دارد — به تحلیل ما دربارهی مدلهای Reasoning مراجعه کنید.




گفتگو