اگر هنوز برای مدیریت فرآیندهای تطبیقی (Compliance) به مهندسی پرامپت تکیه میکنید، باید بدانید که با یک سقف عملکردی مواجه هستید. چارچوب Trace2Policy ثابت کرد که در وظایفی که حساسیت قانونی بالاست، کیفیت قوانین تعیینکننده است، نه اندازه مدل.
خبرگان سازمانی معمولاً از قواعدی ضمنی برای بازرسی و بررسی قراردادها استفاده میکنند که استخراج آنها از طریق پرامپت دشوار است. طبق گزارش منتشر شده در ۱۰ ژوئن ۲۰۲۶، مدل زبانی بزرگ (Large Language Model) در مواجهه با حجم کاری با «نرخ پایه منحرف» (Skewed-base-rate) دچار رکود میشود و دقت آن در اثر تکرار بهبود نمییابد. همانطور که در پوشش پیشین ما دربارهی امنیت عاملهای هوش مصنوعی اشاره کردیم، عدم قطعیت در پاسخ مدلهای زبانی، بزرگترین مانع استقرار آنها در محیطهای صنعتی است.
سازوکار اصلی این سیستم، EISR (Error-driven Iterative Skill Refinement) یا «تنظیم مهارتی تکرارشوندهی مبتنی بر خطا» نام دارد. بر اساس مستندات arxiv.org، این سیستم یک سند قانون خوانا برای انسان را هدف بهینهسازی قرار میدهد و خطاها را به سه دسته ناپدید (MISSING)، اشتباه (WRONG) و متناقض (CONFLICT) تقسیم میکند تا سپس آنها را اصلاح کرده و از یک دروازه رگرسیون عبور دهد.
نتایج کلیدی این مطالعه عبارتند از:
- توقف رشد دقت در تقطیر تکمرحلهای (One-shot distillation) در حدود ۷۰٪.
- رسیدن به دقت ۷۹.۶٪ پس از هشت دور EISR.
- استقرار به مدت ۲۲ روز در یک شرکت حملونقل بزرگ برای بررسی ۳۳۴۹ مورد حسابرسی.
- برتری اجرای کد پایتون بر پرامپتنویسی به میزان ۹.۸ درصد.
همچنین نسخهای به نام Auto-EISR هزینههای تنظیم را از ۷۰ ساعت کار خبره به تنها ۵ تا ۱۰ دلار در هر چرخه کاهش داد.
این یافتهها تکیه صنعت بر مدلهای بزرگتر برای حل موارد خاص (Edge Cases) را به چالش میکشد. نگاه ما این است که شاهد یک چرخش پارادایمی به سمت «کامپایل» هستیم؛ جایی که هوش مصنوعی زاینده (Generative AI) به جای اینکه موتور استنتاج (Inference) در لحظه باشد، برای تکرار و پالایش منطق قطعی (Deterministic Logic) به کار گرفته شود. این رویکرد نوسانات عاملهای مبتنی بر پرامپت را حذف و هزینههای فراخوانی مدل را در زمان اجرا به صفر میرساند.
گام بعدی شما
- بررسی انتقال Auto-EISR به بنچمارکهای عمومی مانند LegalBench برای استانداردسازی ارزیابی عاملهای قانونمحور.
- جایگزینی زنجیرههای پرامپت پیچیده با منطق کامپایلشده در نقاط حساس و حیاتی سیستم.
- ارزیابی نرخ خطای مدلها در موارد نادر (Edge Cases) برای شناسایی نیاز به اجرای چرخه EISR.
اما تأثیر این رویکرد بر سختافزارهای استنتاج لبه، ابعاد جدیدی به این بحث میدهد — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.



گفتگو