LakeQA: نمره ۱۸.۳۷ درصدی GPT-5.2 در بنچمارک داده‌های کلان

باید بپذیریم که افزایش حجم پنجره‌های متنی، راهکار جادویی برای درک داده‌های کلان نیست. نتایج جدید بنچمارک LakeQA نشان می‌دهد که حتی پیشرفته‌ترین مدل‌های جهان در مواجهه با دریاچه‌های داده‌ای (Data Lakes)، عملاً گیج می‌شوند.

تا امروز، اکثر بنچمارک‌های پرسش و پاسخ، شواهد را به‌طور مستقیم یا از طریق بازیابی‌های ساده در اختیار مدل قرار می‌دادند و سخت‌ترین بخش دنیای واقعی یعنی «کشف» (Discovery) را نادیده می‌گرفتند. همان‌طور که در پوشش پیشین ما از محدودیت‌های سیستم‌های تولید بازیابی‌افزا (RAG) اشاره کردیم، فاصله میان استخراج ساده و جست‌وجوی مدل‌محور همچنان عمیق است.

طبق گزارشی که در ۱۰ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، بنچمارک LakeQA با استفاده از ۹.۵ ترابایت منابع متنی از ویکی‌پدیا و داده‌های دولتی، توانمندی‌های مدل زبانی بزرگ (LLM) را به چالش کشیده است. بر اساس مستندات این پژوهش، ویژگی‌های کلیدی این بنچمارک عبارت‌اند از:

مقیاس: یک دریاچه داده در سطح میلیونی شامل فرمت‌های ساختاریافته و بدون ساختار.
کیفیت: هر نمونه توسط حداقل یک متخصص در سطح PhD حاشیه‌نویسی شده است.
پیچیدگی: نیاز به استدلال‌های چندگامی (Multi-hop Reasoning) که در آن گام‌های میانی ضمنی هستند و عامل (Agent) باید ابتدا سند را کشف کند.

نمره ۱۸.۳۷ درصدی GPT-5.2 در این آزمون، یک پیام روشن دارد: مقیاس‌بندی (Scaling) پنجره متنی جایگزینی برای قابلیت‌های جست‌وجوی عامل‌محور (Agentic Search) نیست. این شکست نشان می‌دهد که سیستم‌های RAG فعلی، هنوز فاقد مکانیسم‌های کشف خودمختار برای مدیریت هوشمند داده‌های کلان هستند.

گام بعدی شما

بررسی این موضوع که آیا عامل‌های جست‌وجوی تخصصی می‌توانند این شکاف را پر کنند یا گلوگاه استدلال، ذاتی به معماری فعلی است.
دنبال کردن زمان انتشار کامل مجموعه داده‌های ۹.۵ ترابایتی برای تست پیاده‌سازی‌های سفارشی RAG.

اما این شکست در استخراج داده، تنها بخشی از مشکل است؛ تأثیر این محدودیت‌ها بر هزینه‌های استنتاج (Inference) در مقیاس سازمانی را در گزارش بعدی بررسی خواهیم کرد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

مقیاس: یک دریاچه داده در سطح میلیونی شامل فرمت‌های ساختاریافته و بدون ساختار.
کیفیت: هر نمونه توسط حداقل یک متخصص در سطح PhD حاشیه‌نویسی شده است.
پیچیدگی: نیاز به استدلال‌های چندگامی (Multi-hop Reasoning) که در آن گام‌های میانی ضمنی هستند و عامل (Agent) باید ابتدا سند را کشف کند.

گام بعدی شما

بررسی این موضوع که آیا عامل‌های جست‌وجوی تخصصی می‌توانند این شکاف را پر کنند یا گلوگاه استدلال، ذاتی به معماری فعلی است.
دنبال کردن زمان انتشار کامل مجموعه داده‌های ۹.۵ ترابایتی برای تست پیاده‌سازی‌های سفارشی RAG.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

LakeQA: نمره ۱۸.۳۷ درصدی GPT-5.2 در بنچمارک داده‌های کلان

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

LakeQA: نمره ۱۸.۳۷ درصدی GPT-5.2 در بنچمارک داده‌های کلان

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

LakeQA: نمره ۱۸.۳۷ درصدی GPT-5.2 در بنچمارک داده‌های کلان

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

LakeQA: نمره ۱۸.۳۷ درصدی GPT-5.2 در بنچمارک داده‌های کلان

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران