تصور کنید تمام زیرساختهای دیتابیس برداری شما یکشبه منسوخ شوند. این کابوس برای بسیاری از مهندسان هوش مصنوعی، با معرفی PageIndex به یک احتمال تبدیل شده است.
به نقل از آموزشهای منتشر شده در MarkTechPost، این معماری جدید بازیابی را بدون استفاده از بردار معنایی (Vector Embedding) پیاده میکند. در این روش، اسناد طولانی به جای تکهتکه شدن، به صورت درختهای سلسلهمراتبی مدل میشوند تا مدل استدلالی (Reasoning Model) بتواند با منطق، مسیر دسترسی به اطلاعات را پیدا کند.

سیستمهای سنتی تولید بازیابیافزا (Retrieval-Augmented Generation - RAG) بر اساس شباهت معنایی عمل میکنند. اما این رویکرد در مواجهه با گزارشهای مالی یا قراردادهای حقوقی شکست میخورد؛ زیرا در این اسناد، ساختار متن مهمتر از شباهت کلمات است. PageIndex برای حل این مشکل، مراحل زیر را طی میکند:
- تبدیل PDF به یک درخت فهرست مطالب تو در تو
- ذخیره عناوین، خلاصهها و متن کامل در هر گره (Node)
- حفظ دقیق سلسلهمراتب نویسنده در ساختار داده

در لحظهی پرسوجو، سیستم تنها عناوین و خلاصهها را به یک مدل زبانی بزرگ (Large Language Model - LLM) میفرستد. مدل ابتدا روی ساختار استدلال میکند، گرههای مرتبط را شناسایی کرده و سپس متن کامل آنها را بارگذاری میکند. طبق گزارش این منبع، این متدولوژی در بنچمارک FinanceBench دقت بهمراتب بالاتری داشته است، هرچند اعداد دقیق و بازههای اطمینان ارائه نشده است.

در پوشش پیشین ما از معماریهای RAG، دیدیم که وابستگی شدید به شباهت معنایی منجر به گم شدن جزئیات ساختاری در اسناد طولانی میشود. PageIndex برای اثبات ادعای خود، مقالهی مشهور Transformer را ایندکس کرد. مدل توانست با پیمایش درخت و استدلال روی خلاصهها، پاسخهایی به سوالات پیچیده (مانند دلیل انتخاب self-attention به جای recurrence) را از بخشهای مختلف مقاله استخراج و ترکیب کند.

نکتهی کلیدی این است که این ایندکس «مستقل از پرسوجو» است. یعنی برای سوالات جدید، نیازی به ایندکسگذاری یا تبدیل مجدد به بردار نیست و هزینه هر پرسوجو بسیار اندک است.

اگر این ادعاها در مقیاس صنعتی ثابت شوند، دیتابیسهای برداری که ستون فقرات RAG سازمانی هستند، جایگاه خود را از دست میدهند. این تغییر، شفافیت را افزایش میدهد؛ زیرا مسیر بازیابی دادهها برخلاف هندسهی پیچیدهی بردارها، کاملاً قابل ردیابی و تفسیر است.

با این حال، باید هشدار داد که این نتایج تنها بر اساس یک منبع است و هنوز ارزیابیهای مستقل در مقیاس وسیع منتشر نشده است.

اما این تحول در بازیابی، تنها نیمی از داستان است؛ تأثیر این رویکرد بر هزینههای استنتاج (Inference) را در گزارش بعدی بررسی میکنیم.
![[PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD] [PAD]](https://media.dothoosh.com/e7556c1f-a23b-4e38-a27c-e18047021cf1-8-rag-without-vectors-how-pageindex-retrieves-by-reasoning.webp)
گام بعدی شما
- بررسی متدولوژی PageIndex برای اسناد حقوقی و مالی با ساختار پیچیده
- مقایسه هزینه استنتاج در مدلهای درختی در مقابل دیتابیسهای برداری
- دنبال کردن نتایج مستقل از بنچمارک FinanceBench برای تایید ادعاها




گفتگو