اگر برای استناد به رویههای قضایی به یک مدل زبانی اعتماد میکنید، در واقع در حال قمار روی اعتبار حرفهای خود هستید. باید بدانید که حتی قدرتمندترین مدلهای فعلی، در بازسازی دقیق منابع حقوقی بهشدت ناکارآمدند.
این بحران در حالی رخ میدهد که هوش مصنوعی زاینده (Generative AI) بهسرعت در جریان تدوین متون حقوقی ادغام میشود. همانطور که در تحلیلهای پیشین ما دربارهی توهمات مدلهای زبانی اشاره کردیم، مشکل اصلی این است که مدلها تمایل دارند پاسخهایی «باورپذیر» تولید کنند، نه لزوماً «صحیح». در محیطهای حساس حقوقی، این تفاوت بین باورپذیری و صحت، مرز بین پیروزی و شکست در دادگاه است.
به نقل از گزارش ۱۲ مه ۲۰۲۶ که در arxiv.org منتشر شد، پژوهشگران چارچوب تشخیصی LegalCiteBench را توسعه دادهاند. این بنچمارک شامل ۲۴,۰۰۰ مورد ارزیابی است که از ۱,۰۰۰ رأی واقعی دادگاههای ایالات متحده استخراج شدهاند. طبق این مستندات، ۲۰ مدل از ۲۱ مدل زبانی بزرگ (LLM) مورد آزمایش، در بازیابی استنادات شکست خوردند و نرخ پاسخهای گمراهکننده (MAR) در وظایف بازیابیمحور، از ۹۴٪ فراتر رفت.
این ارزیابی بر پنج قابلیت کلیدی تمرکز دارد:
- بازیابی و تکمیل استنادات
- تشخیص خطاهای استنادی
- تطبیق پروندهها
- تأیید و اصلاح پروندهها
بر اساس بررسی این دادهها، یک فرض بنیادین در مورد قوانین مقیاسپذیری (Scaling Laws) به چالش کشیده شده است: نه افزایش تعداد پارامترها و نه حتی پیشآموزش تخصصی در دامنه حقوق، نتوانست دقت استنادات را بهبود بخشد. این نشان میدهد که تولید منابع ساختگی یک نقص ساختاری است و حتی دستورالعملهای مربوط به «عدم قطعیت» در پرامپتها، تنها میزان اعتمادبهنفس مدل در دروغ گفتن را کاهش میدهد، اما صحت پاسخ را بالا نمیبرد.
برای جامعهی AI، این نتیجه تأیید میکند که تولید متن بهصورت «کتاب بسته» (Closed-book generation) برای استنادهای حقوقی حساس، اساساً نامناسب است. تنها مسیر عملی، پیادهسازی سختگیرانهی تولید بازیابیافزا (RAG) است تا هر استناد مستقیماً به یک پایگاه دادهی خارجی تأییدشده متصل شود.
گام بعدی شما
- در ابزارهای حقوقی، اولویت را به سرویسهایی بدهید که لینک مستقیم به منابع دستاول (Primary Sources) ارائه میکنند.
- از مدلهای زبانی برای «تحلیل» متنهای موجود استفاده کنید، نه برای «یافتن» پروندههای جدید.
- رفتار مدل در مواجهه با نبود منبع (Abstention behavior) را به دقت پایش کنید.
اما این شکست در بازیابی دادهها، تنها بخشی از یک چالش بزرگتر است؛ برای درک اینکه چرا RAG تنها راه نجات است، تحلیل ما دربارهی معماریهای بازیابی داده را بخوانید.
گفتگو