اگر همین امروز یک سیستم تولید بازیابیافزا (RAG) — مثل دانشآموزی که قبل از جواب دادن، اول کتاب درسی را باز میکند و از آن نقل میآورد — را مستقر کنید، باید بدانید که بازیابی دقیق اسناد، جلوی دروغهای هوش مصنوعی را نمیگیرد.
طبق گزارش فیزال شیخ، مهندس ارشد اتوماسیون، در ۱۱ ژوئن ۲۰۲۶، لایهی تولید پاسخ است که خطرناکترین توهمات (Hallucinations) — یعنی وقتی مدل با اطمینان چیزی میگوید که اصلاً وجود ندارد، شبیه دوستی که خاطرهای را اشتباه تعریف میکند — در آنجا شکل میگیرند، نه در لایهی بازیابی.
بیشتر توسعهدهندگان روی یافتن سند درست تمرکز میکنند. اما مدل زبانی بزرگ (LLM) — مثل کتابخانهداری که میلیاردها صفحه را خوانده و حالا با همان لحن کتابها جواب میدهد — ممکن است متن را نادیده بگیرد یا واقعیتهای جدیدی ابداع کند. همانطور که در تحلیلهای قبلی ما دربارهی امنیت مدلهای بازمتن اشاره کردیم، این شکاف باعث میشود سیستم در گزارشها سالم به نظر برسد، اما در محیط عملیاتی شکست بخورد.
برای حل این مشکل، چارچوب RAGAS از رویکرد «مدل بهعنوان داور» با استفاده از مدلهایی مثل GPT-4o-mini بهره میبرد. این سیستم معیار وفاداری (Faithfulness) را محاسبه میکند. روش کار ساده است: پاسخ را به تکتک ادعاها خرد میکند و از مدل داور میپرسد: «آیا این ادعا در متن بازیابیشده وجود دارد یا خیر؟»

در این تحلیل، دو نوع شکست شناسایی شده است:
- توهم ذاتی: مدل مستقیماً با متن موجود در سند مخالفت میکند.
- توهم خارجی: مدل اطلاعاتی اضافه میکند که در منبع نیست و قابل تایید نیست.
برای تأیید نهایی در خط لوله تولید، امتیاز وفاداری کمتر از ۰.۸ هشدار ایجاد میکند و امتیاز کمتر از ۰.۳ یک « fabricate » یا جعل بحرانی تلقی میشود.
این تغییر یعنی مهندسان باید به جای تکیه بر مجموعهدادههای مرجع (Ground Truth) که اغلب در دسترس نیستند، به مدلهای «مبنیسازی شده» رویایپردازیهای مدل را بگیرند.
گام بعدی شما
- چارچوب RAGAS را در CI/CD خط لوله تولید خود تست کنید تا «بیشبرآوردهای مطمئن» را شناسایی کنید.
- تمرکز تستهای خود را از تطبیق کلمات کلیدی به دقت معنایی منتقل کنید.
- استراتژیهای تست برای حالتهایی که هیچ سند مرتبطی بازیابی نمیشود را بررسی کنید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو