توقف بهینه‌سازی برای مرتبط بودن؛ وقتی «مفید بودن» بازی RAG را عوض می‌کند

اگر هنوز روی معیار «مرتبط بودن» متمرکز هستید، احتمالاً دارید به مدل خود نویز تزریق می‌کنید. باید بدانید که تنها معیاری که برای موفقیت در سیستم‌های تولید بازیابی‌افزا (Retrieval-Augmented Generation - RAG) اهمیت دارد، توانایی یک سند در کاهش عدم قطعیت مدل است، نه صرفاً شباهت کلمات آن به پرسش کاربر.

به نقل از مستندات منتشر شده در ۷ مه ۲۰۲۶ در arxiv.org، چارچوب CAR (Confidence-Aware Reranking) یک متد «بدون نیاز به آموزش» (Training-free) را معرفی می‌کند تا اسناد را بر اساس «مفید بودن» بازرتبه‌بندی کند. بر اساس یافته‌های این پژوهش، رتبه‌بندهای سنتی اغلب اسنادی را بالا می‌آورند که اگرچه مرتبط هستند، اما همچنان نویز ایجاد می‌کنند و در مقابل، اسنادی را نادیده می‌گیرند که می‌توانند ابهام مدل را به‌طور کامل برطرف کنند.

سازوکار CAR به شرح زیر است:

تخمین سطح اطمینان از طریق بررسی سازگاری معنایی چندین پاسخ نمونه‌برداری شده.
مقایسه خروجی مدل در دو حالت: «فقط پرسش» در برابر «پرسش + سند».
ارتقای اسنادی که سطح اطمینان را به‌طور معنادار افزایش می‌دهند.
تنزل رتبه اسنادی که باعث کاهش اطمینان یا افزایش سردرگمی مدل می‌شوند.
استفاده از یک «درگاه سطح پرسش» (Query-level gate) برای جلوگیری از مداخلات غیرضروری در مواردی که مدل از پیش مطمئن است.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی کاهش توهمات در مدل‌های زبانی اشاره کردیم، مشکل اصلی RAG همیشه در لایه‌ی بازیابی بوده است. CAR با هدف زدن همین نقطه ضعف، در آزمایش‌های انجام شده روی چهار مجموعه داده BEIR، بهبود مستمری در معیار NDCG@5 ایجاد کرد. نکته خیره‌کننده این است که این چارچوب توانست عملکرد رتبه‌بند YesNo را در حالت بازیابی Contriever به‌طور متوسط ۲۵.۴ درصد بهبود بخشد.

این تغییر رویکرد از «مرتبط بودن» به «مفید بودن»، گلوگاه اصلی معماری‌های RAG را هدف قرار می‌دهد. محققان همبستگی تقریباً کاملی (Spearman rho = ۰.۹۶۴) بین بهبودهای رتبه‌بندی CAR و افزایش واقعی امتیاز F1 در تولید پاسخ‌ها یافتند؛ این یعنی سیگنال‌های اطمینان، جایگزینی بسیار برتر برای سنجش کیفیت نهایی پاسخ هستند.

اما این تنها بخشی از معماری است؛ تأثیر این رویکرد بر استدلال‌های چندمرحله‌ای در محیط‌های عامل‌محور (Agentic) را در گزارش بعدی بررسی خواهیم کرد.

گام بعدی شما

اگر از RAG در محیط عملیاتی استفاده می‌کنید، معیارهای شباهت معنایی (Cosine Similarity) را با متدهای مبتنی بر اطمینان جایگزین یا ترکیب کنید.
برای ارزیابی کیفیت، به جای تکیه بر معیارهای بازیابی، روی همبستگی بین رتبه‌بندی و کیفیت پاسخ نهایی (F1 Score) تمرکز کنید.
تست کنید که آیا مدل شما در پاسخ‌های «فقط پرسش» دچار عدم قطعیت است یا خیر تا لایه‌ی رتبه‌بندی را بهینه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

سازوکار CAR به شرح زیر است:

تخمین سطح اطمینان از طریق بررسی سازگاری معنایی چندین پاسخ نمونه‌برداری شده.
مقایسه خروجی مدل در دو حالت: «فقط پرسش» در برابر «پرسش + سند».
ارتقای اسنادی که سطح اطمینان را به‌طور معنادار افزایش می‌دهند.
تنزل رتبه اسنادی که باعث کاهش اطمینان یا افزایش سردرگمی مدل می‌شوند.
استفاده از یک «درگاه سطح پرسش» (Query-level gate) برای جلوگیری از مداخلات غیرضروری در مواردی که مدل از پیش مطمئن است.

گام بعدی شما

اگر از RAG در محیط عملیاتی استفاده می‌کنید، معیارهای شباهت معنایی (Cosine Similarity) را با متدهای مبتنی بر اطمینان جایگزین یا ترکیب کنید.
برای ارزیابی کیفیت، به جای تکیه بر معیارهای بازیابی، روی همبستگی بین رتبه‌بندی و کیفیت پاسخ نهایی (F1 Score) تمرکز کنید.
تست کنید که آیا مدل شما در پاسخ‌های «فقط پرسش» دچار عدم قطعیت است یا خیر تا لایه‌ی رتبه‌بندی را بهینه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

توقف بهینه‌سازی برای مرتبط بودن؛ وقتی «مفید بودن» بازی RAG را عوض می‌کند

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

توقف بهینه‌سازی برای مرتبط بودن؛ وقتی «مفید بودن» بازی RAG را عوض می‌کند

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

توقف بهینه‌سازی برای مرتبط بودن؛ وقتی «مفید بودن» بازی RAG را عوض می‌کند

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

توقف بهینه‌سازی برای مرتبط بودن؛ وقتی «مفید بودن» بازی RAG را عوض می‌کند

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران