سیستمهای بازیابی-توسعهیافته (RAG) ترکیبی از بازیابی اسناد و هوش مصنوعی مولد هستند که برای انجام وظایف پیچیده جستجوی اطلاعات طراحی شدهاند. پژوهش تازهای بررسی میکند که آیا معیارهای بازیابی در مراحل اولیه میتوانند شاخصهای قابل اتکایی برای پوشش اطلاعاتی پاسخهای نهایی تولیدشده باشند یا خیر.
این تحقیق ۱۵ پشته بازیابی متنی و ۱۰ پشته بازیابی چندوجهی را در چندین خط لوله RAG و چارچوب ارزیابی شامل Auto-ARGUE و MiRAGE تجزیهوتحلیل کرده است. آزمایشها بر روی دو بنچمارک متنی RAG (TREC NeuCLIR ۲۰۲۴ و TREC RAG ۲۰۲۴) و یک بنچمارک چندوجهی (WikiVideo) انجام شدهاند.
یافتههای کلیدی نشاندهنده همبستگیهای قوی بین معیارهای بازیابی مبتنی بر پوشش و پوشش ناگت در پاسخهای تولیدشده، در سطح موضوع و سیستم است. این رابطه زمانی که اهداف بازیابی با اهداف تولید همسو باشند، قویترین حالت خود را دارد.
نکته جالب توجه اینکه، خطوط لوله RAG تکراری پیچیدهتر میتوانند تا حدی کیفیت تولید را از اثربخشی بازیابی جدا کنند. این موضوع نشان میدهد که با پیچیدهتر شدن سیستمها، رابطه مستقیم بین کیفیت بازیابی و پوشش خروجی ممکن است ضعیفتر شود. این یافتهها پشتوانه تجربی محکمی برای استفاده از معیارهای بازیابی بهعنوان معیارهای جایگزین عملکرد RAG فراهم میکنند و امکان ارزیابی و بهینهسازی کارآمدتر سیستمهای بازیابی-توسعهیافته را فراهم میسازند.
این مطالعه نشان میدهد که نظارت بر کیفیت بازیابی در مرحله بازیابی اسناد میتواند بینشهای پیشبینی ارزشمندی درباره کیفیت خروجیهای نهایی تولیدشده ارائه دهد و رویکردی عملی برای توسعهدهندگان جهت ارزیابی و بهبود عملکرد سیستمهای RAG پیش از تولید پاسخهای کامل فراهم کند.

گفتگو