باید بپذیریم که افزایش حجم پنجرههای متنی، راهکار جادویی برای درک دادههای کلان نیست. نتایج جدید بنچمارک LakeQA نشان میدهد که حتی پیشرفتهترین مدلهای جهان در مواجهه با دریاچههای دادهای (Data Lakes)، عملاً گیج میشوند.
تا امروز، اکثر بنچمارکهای پرسش و پاسخ، شواهد را بهطور مستقیم یا از طریق بازیابیهای ساده در اختیار مدل قرار میدادند و سختترین بخش دنیای واقعی یعنی «کشف» (Discovery) را نادیده میگرفتند. همانطور که در پوشش پیشین ما از محدودیتهای سیستمهای تولید بازیابیافزا (RAG) اشاره کردیم، فاصله میان استخراج ساده و جستوجوی مدلمحور همچنان عمیق است.
طبق گزارشی که در ۱۰ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، بنچمارک LakeQA با استفاده از ۹.۵ ترابایت منابع متنی از ویکیپدیا و دادههای دولتی، توانمندیهای مدل زبانی بزرگ (LLM) را به چالش کشیده است. بر اساس مستندات این پژوهش، ویژگیهای کلیدی این بنچمارک عبارتاند از:
- مقیاس: یک دریاچه داده در سطح میلیونی شامل فرمتهای ساختاریافته و بدون ساختار.
- کیفیت: هر نمونه توسط حداقل یک متخصص در سطح PhD حاشیهنویسی شده است.
- پیچیدگی: نیاز به استدلالهای چندگامی (Multi-hop Reasoning) که در آن گامهای میانی ضمنی هستند و عامل (Agent) باید ابتدا سند را کشف کند.
نمره ۱۸.۳۷ درصدی GPT-5.2 در این آزمون، یک پیام روشن دارد: مقیاسبندی (Scaling) پنجره متنی جایگزینی برای قابلیتهای جستوجوی عاملمحور (Agentic Search) نیست. این شکست نشان میدهد که سیستمهای RAG فعلی، هنوز فاقد مکانیسمهای کشف خودمختار برای مدیریت هوشمند دادههای کلان هستند.
گام بعدی شما
- بررسی این موضوع که آیا عاملهای جستوجوی تخصصی میتوانند این شکاف را پر کنند یا گلوگاه استدلال، ذاتی به معماری فعلی است.
- دنبال کردن زمان انتشار کامل مجموعه دادههای ۹.۵ ترابایتی برای تست پیادهسازیهای سفارشی RAG.
اما این شکست در استخراج داده، تنها بخشی از مشکل است؛ تأثیر این محدودیتها بر هزینههای استنتاج (Inference) در مقیاس سازمانی را در گزارش بعدی بررسی خواهیم کرد.



گفتگو