اگر در حال ساخت یک سیستم تولید بازیابیافزا (RAG) — مثل دانشآموزی که قبل از جواب دادن، اول کتاب درسی را باز میکند و از آن نقل میآورد — هستید، نویزهای HTML کیفیت دادههای شما را نابود میکنند. باید بدانید که بدون متن خالص، مدل شما ممکن است به جای محتوای مقاله، رابط کاربری سایت را تحلیل کند و دچار توهم (Hallucination) شود؛ یعنی با اطمینان چیزی بگوید که اصلاً وجود ندارد، شبیه دوستی که خاطرهای را اشتباه تعریف میکند.
زمانی که میخواهیم هوش مصنوعی را بر اساس دادههای خصوصی «مبنیسازی» کنیم، به قطعاتی با تراکم اطلاعاتی بالا نیاز داریم. طبق گزارشهای فنی، بسیاری از توسعهدهندگان در تبدیل صفحات وب به متنی که آمادهی تبدیل به بردار معنایی (Embedding) باشد شکست میخورند. بردار معنایی در واقع مثل کارت معرفی عددی برای هر واژه است که میگوید این کلمه «همسایهی» چه کلمات دیگری است. همانطور که در تحلیل قبلی ما دربارهی مبانی استخراج داده برای مدلهای زبانی اشاره کردیم، کیفیت ورودی تعیینکنندهی کیفیت خروجی است.
بر اساس مستندات منتشر شده در ۸ ژوئن ۲۰۲۶ در وبسایت dev.to، راهکار این مشکل استفاده از API سرویس Zenndra است. این خط لوله استخراج در دو مرحله عمل میکند:
- بازیابی محتوا: فراخوانی مسیر
/article/{id}/contentبرای دریافت متن خالص. - همگامسازی متادیتا: فراخوانی مسیر
/article/{id}برای جمعآوری عنوان، برچسبها و مشخصات نویسنده. - منطق تکهبندی: استفاده از یک تابع TypeScript برای تقسیم متن به قطعات ۸۰۰ کلمهای با ۱۰۰ کلمه همپوشانی برای حفظ بافت متن.
به نقل از نویسندگان این راهنما، این روش «خزش نویزی» را به «استخراج ساختاریافته» تبدیل میکند. این رویکرد در واقع تکاملی از مفاهیمی است که ابزارهای جدیدتر برای جایگزینی خلاصههای کلی با پاسخهای دقیقتر به کار میگیرند؛ موضوعی که در تحلیل ما پیرامون استخراج ساختاریافته توسط Get It به تفصیل بررسی شده است. با افزودن عنوان و برچسبها به ابتدای هر قطعه، دقت بازیابی بهطور چشمگیری بالا میرود. در نتیجه، رابط کاربری چت شما میتواند دقیقاً به article_id و chunk_index ارجاع دهد تا پاسخهای هوش مصنوعی قابل راستیآزمایی باشند.
برای پیادهسازی، باید کلیدهای API سرویس Zenndra را مدیریت کنید و برای جلوگیری از دادههای تکراری، از هشینگ (Hashing) محتوا استفاده کنید. همچنین طبق قوانین سرویس Medium، باید مراقب باشید که محتوای پشت دیوارهای پرداخت (Paywall) را به صورت غیرمجاز منتشر نکنید.
گام بعدی شما
- این خط لوله را با مدلهای داخلی مثل Ollama تست کنید تا هزینه استنتاج را کاهش دهید.
- منطق استخراج متادیتا را برای سایر پلتفرمهای نشر بلندمتن پیادهسازی کنید.
- سیستم ارجاع (Citation) خود را بر اساس ایندکسهای دقیق Zenndra بازنویسی کنید.
اما تأثیر این دقت در بازیابی بر مدلهای استدلالی جدید پیچیدهتر است؛ به بررسی ما دربارهی مدلهای Reasoning مراجعه کنید.
گفتگو