اگر هنوز روی معیار «مرتبط بودن» متمرکز هستید، احتمالاً دارید به مدل خود نویز تزریق میکنید. باید بدانید که تنها معیاری که برای موفقیت در سیستمهای تولید بازیابیافزا (Retrieval-Augmented Generation - RAG) اهمیت دارد، توانایی یک سند در کاهش عدم قطعیت مدل است، نه صرفاً شباهت کلمات آن به پرسش کاربر.
به نقل از مستندات منتشر شده در ۷ مه ۲۰۲۶ در arxiv.org، چارچوب CAR (Confidence-Aware Reranking) یک متد «بدون نیاز به آموزش» (Training-free) را معرفی میکند تا اسناد را بر اساس «مفید بودن» بازرتبهبندی کند. بر اساس یافتههای این پژوهش، رتبهبندهای سنتی اغلب اسنادی را بالا میآورند که اگرچه مرتبط هستند، اما همچنان نویز ایجاد میکنند و در مقابل، اسنادی را نادیده میگیرند که میتوانند ابهام مدل را بهطور کامل برطرف کنند.
سازوکار CAR به شرح زیر است:
- تخمین سطح اطمینان از طریق بررسی سازگاری معنایی چندین پاسخ نمونهبرداری شده.
- مقایسه خروجی مدل در دو حالت: «فقط پرسش» در برابر «پرسش + سند».
- ارتقای اسنادی که سطح اطمینان را بهطور معنادار افزایش میدهند.
- تنزل رتبه اسنادی که باعث کاهش اطمینان یا افزایش سردرگمی مدل میشوند.
- استفاده از یک «درگاه سطح پرسش» (Query-level gate) برای جلوگیری از مداخلات غیرضروری در مواردی که مدل از پیش مطمئن است.
همانطور که در تحلیلهای پیشین ما دربارهی کاهش توهمات در مدلهای زبانی اشاره کردیم، مشکل اصلی RAG همیشه در لایهی بازیابی بوده است. CAR با هدف زدن همین نقطه ضعف، در آزمایشهای انجام شده روی چهار مجموعه داده BEIR، بهبود مستمری در معیار NDCG@5 ایجاد کرد. نکته خیرهکننده این است که این چارچوب توانست عملکرد رتبهبند YesNo را در حالت بازیابی Contriever بهطور متوسط ۲۵.۴ درصد بهبود بخشد.
این تغییر رویکرد از «مرتبط بودن» به «مفید بودن»، گلوگاه اصلی معماریهای RAG را هدف قرار میدهد. محققان همبستگی تقریباً کاملی (Spearman rho = ۰.۹۶۴) بین بهبودهای رتبهبندی CAR و افزایش واقعی امتیاز F1 در تولید پاسخها یافتند؛ این یعنی سیگنالهای اطمینان، جایگزینی بسیار برتر برای سنجش کیفیت نهایی پاسخ هستند.
اما این تنها بخشی از معماری است؛ تأثیر این رویکرد بر استدلالهای چندمرحلهای در محیطهای عاملمحور (Agentic) را در گزارش بعدی بررسی خواهیم کرد.
گام بعدی شما
- اگر از RAG در محیط عملیاتی استفاده میکنید، معیارهای شباهت معنایی (Cosine Similarity) را با متدهای مبتنی بر اطمینان جایگزین یا ترکیب کنید.
- برای ارزیابی کیفیت، به جای تکیه بر معیارهای بازیابی، روی همبستگی بین رتبهبندی و کیفیت پاسخ نهایی (F1 Score) تمرکز کنید.
- تست کنید که آیا مدل شما در پاسخهای «فقط پرسش» دچار عدم قطعیت است یا خیر تا لایهی رتبهبندی را بهینه کنید.




گفتگو