LegalCiteBench: نرخ خطای ۹۴ درصدی مدل‌های زبانی در بازیابی استنادات حقوقی

اگر برای استناد به رویه‌های قضایی به یک مدل زبانی اعتماد می‌کنید، در واقع در حال قمار روی اعتبار حرفه‌ای خود هستید. باید بدانید که حتی قدرتمندترین مدل‌های فعلی، در بازسازی دقیق منابع حقوقی به‌شدت ناکارآمدند.

این بحران در حالی رخ می‌دهد که هوش مصنوعی زاینده (Generative AI) به‌سرعت در جریان تدوین متون حقوقی ادغام می‌شود. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی توهمات مدل‌های زبانی اشاره کردیم، مشکل اصلی این است که مدل‌ها تمایل دارند پاسخ‌هایی «باورپذیر» تولید کنند، نه لزوماً «صحیح». در محیط‌های حساس حقوقی، این تفاوت بین باورپذیری و صحت، مرز بین پیروزی و شکست در دادگاه است.

به نقل از گزارش ۱۲ مه ۲۰۲۶ که در arxiv.org منتشر شد، پژوهشگران چارچوب تشخیصی LegalCiteBench را توسعه داده‌اند. این بنچمارک شامل ۲۴,۰۰۰ مورد ارزیابی است که از ۱,۰۰۰ رأی واقعی دادگاه‌های ایالات متحده استخراج شده‌اند. طبق این مستندات، ۲۰ مدل از ۲۱ مدل زبانی بزرگ (LLM) مورد آزمایش، در بازیابی استنادات شکست خوردند و نرخ پاسخ‌های گمراه‌کننده (MAR) در وظایف بازیابی‌محور، از ۹۴٪ فراتر رفت.

این ارزیابی بر پنج قابلیت کلیدی تمرکز دارد:

بازیابی و تکمیل استنادات
تشخیص خطاهای استنادی
تطبیق پرونده‌ها
تأیید و اصلاح پرونده‌ها

بر اساس بررسی این داده‌ها، یک فرض بنیادین در مورد قوانین مقیاس‌پذیری (Scaling Laws) به چالش کشیده شده است: نه افزایش تعداد پارامترها و نه حتی پیش‌آموزش تخصصی در دامنه حقوق، نتوانست دقت استنادات را بهبود بخشد. این نشان می‌دهد که تولید منابع ساختگی یک نقص ساختاری است و حتی دستورالعمل‌های مربوط به «عدم قطعیت» در پرامپت‌ها، تنها میزان اعتمادبه‌نفس مدل در دروغ گفتن را کاهش می‌دهد، اما صحت پاسخ را بالا نمی‌برد.

برای جامعه‌ی AI، این نتیجه تأیید می‌کند که تولید متن به‌صورت «کتاب بسته» (Closed-book generation) برای استنادهای حقوقی حساس، اساساً نامناسب است. تنها مسیر عملی، پیاده‌سازی سخت‌گیرانه‌ی تولید بازیابی‌افزا (RAG) است تا هر استناد مستقیماً به یک پایگاه داده‌ی خارجی تأییدشده متصل شود.

گام بعدی شما

در ابزارهای حقوقی، اولویت را به سرویس‌هایی بدهید که لینک مستقیم به منابع دست‌اول (Primary Sources) ارائه می‌کنند.
از مدل‌های زبانی برای «تحلیل» متن‌های موجود استفاده کنید، نه برای «یافتن» پرونده‌های جدید.
رفتار مدل در مواجهه با نبود منبع (Abstention behavior) را به دقت پایش کنید.

اما این شکست در بازیابی داده‌ها، تنها بخشی از یک چالش بزرگ‌تر است؛ برای درک اینکه چرا RAG تنها راه نجات است، تحلیل ما درباره‌ی معماری‌های بازیابی داده را بخوانید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

این ارزیابی بر پنج قابلیت کلیدی تمرکز دارد:

بازیابی و تکمیل استنادات
تشخیص خطاهای استنادی
تطبیق پرونده‌ها
تأیید و اصلاح پرونده‌ها

گام بعدی شما

در ابزارهای حقوقی، اولویت را به سرویس‌هایی بدهید که لینک مستقیم به منابع دست‌اول (Primary Sources) ارائه می‌کنند.
از مدل‌های زبانی برای «تحلیل» متن‌های موجود استفاده کنید، نه برای «یافتن» پرونده‌های جدید.
رفتار مدل در مواجهه با نبود منبع (Abstention behavior) را به دقت پایش کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

LegalCiteBench: نرخ خطای ۹۴ درصدی مدل‌های زبانی در بازیابی استنادات حقوقی

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

LegalCiteBench: نرخ خطای ۹۴ درصدی مدل‌های زبانی در بازیابی استنادات حقوقی

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

LegalCiteBench: نرخ خطای ۹۴ درصدی مدل‌های زبانی در بازیابی استنادات حقوقی

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

LegalCiteBench: نرخ خطای ۹۴ درصدی مدل‌های زبانی در بازیابی استنادات حقوقی

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران