اگر فقط به دلیل درست بودن حکم نهایی به یک هوش مصنوعی حقوقی اعتماد میکنید، در واقع روی یک بمب ساعتی شرط میبندید. طبق مستندات منتشر شده در ۱۰ ژوئن ۲۰۲۶، مدلها اغلب پاسخ درست را حدس میزنند اما زنجیره تفکر آنها کاملاً شکسته است.
بسیاری از ما از مدل زبانی بزرگ (LLM) — مثل کتابخانهداری که میلیاردها صفحه را خوانده و حالا با همان لحن کتابها جواب میدهد — برای تحلیل متون پیچیده استفاده میکنیم. اما در دنیای قانون، یک پاسخ درست که بر اساس استدلالی غلط باشد، فاجعهبار است. همانطور که در تحلیل قبلی ما دربارهی خودکارسازی منطق در طراحی سختافزار اشاره کردیم، تکرار الگو کافی نیست؛ بلکه اثبات مسیر استدلال است که اهمیت دارد.
به نقل از پژوهشگران LegalBench، تحلیل حقوقی باید از چهار مرحلهی سختگیرانه (IRAC) عبور کند: شناسایی مسئله (Issue)، تعیین قاعده (Rule)، کاربرد قاعده (Application) و نتیجهگیری (Conclusion). این سیستم برای سنجش کیفیت، دو محور «صحت» و «تحلیل» را بررسی میکند.

در این رویکرد، صحت یا صفر است یا یک. اگر مدل حتی یک خطا در پنج مورد زیر داشته باشد، نمره آن فوراً به صفر میرسد:
- اشتباه در بیان قاعده
- اشتباه در نقل واقعیتها
- نتیجهگیری نادرست
- خطای منطقی
- خطای محاسباتی
برای اجرای این سختگیری، از یک طرحواره Pydantic استفاده شده تا مدلِ داور فقط «سیگنالهای اتمیک» یا تکهای از واقعیتهای کوچک را صادر کند. برای مثال، اگر مدل در یک پرونده بیمه، حکم «پذیرش» را درست حدس بزند اما هزینه تعمیر را ۱۴۰۰ یورو به جای ۱۲۰۰ یورو بنویسد، سیگنال arithmetic_error فعال میشود. سپس منطق پایتون، کل پاسخ را غلط میشناسد؛ حتی اگر نتیجه نهایی درست باشد.
این روش مشکل «شکاف سازگاری» را حل میکند. یعنی دیگر مدل داور نمیتواند در عین حال که لیستی از خطاها را مینویسد، در نهایت به اشتباه برچسب «درست» بزند. در واقع، این سیستم اجازه نمیدهد توهم (Hallucination) — یعنی وقتی مدل با اطمینان چیزی میگوید که اصلاً وجود ندارد؛ مثل دوستی که خاطرهای را اشتباه تعریف میکند — پشت یک جواب درست پنهان شود. هدف این است که استنتاج (Inference) — لحظهای که مدل واقعاً جواب تولید میکند؛ شبیه خودِ آشپزی، نه دورهی آموزش آشپز — کاملاً شفاف شود.
گام بعدی شما
- اگر روی ابزارهای تحلیل متن کار میکنید، به جای معیار Accuracy، از سیگنالهای اتمیک برای شناسایی نقاط شکست مدل استفاده کنید.
- چارچوب IRAC را برای ساختاردهی به پرامپتهای حقوقی خود به کار ببرید تا مدل را مجبور به استدلال گامبهگام کنید.
- از کتابخانههای اعتبارسنجی داده مانند Pydantic برای حذف توهمات مدل در خروجیهای حساس استفاده کنید.
اما این روش فقط برای حقوق نیست؛ تأثیر این مدلِ داوری بر ارزیابی مدلهای پزشکی در گزارش بعدی ما بررسی خواهد شد.




گفتگو