سیستم MultiDocFusion پیشرفت قابل توجهی در حوزه سیستمهای بازیابی-تولید (RAG) محسوب میشود که به طور ویژه برای پردازش اسناد صنعتی طولانی طراحی شده است. روشهای سنتی خردهبندی متن اغلب در درک ساختارهای سلسلهمراتبی پیچیده مستندات فنی ناتوان هستند، که این موضوع منجر به پراکندگی اطلاعات و کاهش کیفیت پاسخها در سیستمهای پرسش و پاسخ میشود.
{{img:0}}
خطلوله پیشنهادی برای خردهبندی چندوجهی شامل چهار بخش اصلی است. در مرحله نخست، تجزیه و تحلیل مبتنی بر بینایی ماشین برای تشخیص نواحی و چیدمانهای مختلف سند به کار گرفته میشود. سپس فناوری شناسایی نوری کاراکتر (OCR) محتوای متنی را از این نواحی استخراج میکند. در مرحله سوم، مدل زبانی بزرگ با قابلیت تجزیه سلسلهمراتبی بخشها (DSHP-LLM) ساختار سند را به صورت نمایش درختی بازسازی میکند. در نهایت، الگوریتمهای جستجوی عمقاول (DFS) محتوا را در قالب خردههای سلسلهمراتبی گروهبندی میکنند که روابط بین مفاهیم را حفظ مینماید.
{{img:1}}
نتایج آزمایشی بر روی معیارهای صنعتی نشاندهنده بهبودهای چشمگیری است. دقت بازیابی در مقایسه با روشهای پایه بین ۸ تا ۱۵ درصد افزایش یافته و امتیازات پاسخگویی ANLS نیز ۲ تا ۳ درصد بهبود داشته است. این دستاوردها بر اهمیت حیاتی حفظ سلسلهمراتب صریح سند در پردازش اسناد فنی چندوجهی تأکید میورزد.
این پژوهش تأکید میکند که خردهبندی آگاه از ساختار برای حفظ وفاداری در سیستمهای پرسش و پاسخ مبتنی بر RAG ضروری است. MultiDocFusion با احترام به منطق سازماندهی ذاتی اسناد صنعتی، امکان ارائه پاسخهای دقیقتر و مرتبطتر به پرسشهای پیچیده را فراهم میسازد. این رویکرد محدودیت اساسی پیادهسازیهای متعارف RAG را برطرف میکند، جایی که از دست رفتن اطلاعات در فرآیند خردهبندی همواره اثربخشی سیستم را بر روی مواد فنی جامع کاهش میداد.

گفتگو