اگر تصور میکنید با تغییر یک حقیقت در وزنهای مدل، تمام پیامدهای منطقی آن را هم اصلاح کردهاید، در اشتباهید. این شکاف میان «حفظ داده» و «درک منطق»، اعتبار ویرایش دانش در مدلهای زبانی را به چالش میکشد؛ موضوعی که در پژوهشهای مربوط به متنوعسازی طرحوارههای تفکر برای بهبود استدلال ریاضی نیز به عنوان عاملی کلیدی در ارتقای خروجی مدلها شناسایی شده است.
بهروزرسانی اطلاعات در مدلهای زبانی بزرگ (LLM) حیاتی است، اما بازآموزی کامل به دلیل هزینههای محاسباتی غیرممکن است. ویرایش دانش به عنوان جایگزینی برای اصلاح ادعاهای نادرست بدون هزینه آموزش کامل ظهور کرد. همانطور که در تحلیلهای پیشین ما دربارهی بهینهسازی حافظه مدلها اشاره کردیم، چالش اصلی همواره توازن میان دقت و هزینه بوده است.
طبق مقالهای که در ۱۰ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، بنچمارکهای فعلی معیوب هستند زیرا تنها توانایی مدل در تکرار یک حقیقت ویرایششده را میسنجند. این محدودیت در ارزیابی، مشابه چالشهای مشاهده شده در بنچمارک LakeQA است که در آن حتی مدلهای پیشرفته در پردازش دادههای کلان دچار افت عملکرد شدید شدند. بر اساس یافتههای این پژوهش، برای حل این مشکل، چارچوب ارزیابی جدیدی معرفی شده است که از گرافهای دانش برای استخراج قوانین منطقی استفاده میکند. جزئیات فنی این شکستها عبارتند از:
- بازخوانی مستقیم: روشهایی مانند ROME و FT (Fine-Tuning) در درج ادعاهای خاص موفق هستند.
- شکاف استلزام: وقتی از مدل سوالاتی بر اساس دانش استلزامی (Entailed Knowledge) پرسیده میشود، عملکرد تا ۲۴ درصد افت میکند.
- شکست ارزیابی: نتایج نشاندهنده نقص جدی در چارچوبهای ارزیابی حساس به معنا (Semantics-aware) است.
برای جامعه فنی، این کشف معیار موفقیت در ویرایش دانش را تغییر میدهد. این موضوع ثابت میکند که با تکیه بر بنچمارکهای بازخوانی سطحی، اثربخشی بهروزرسانیهای محلی وزنها بیش از حد تخمین زده شده است. ویرایش واقعی باید از اصلاحات نقطهای فراتر رفته و شبکه معنایی گستردهتر را هدف قرار دهد.
گام بعدی شما
- بررسی متدهای ویرایش دانش که بر پایه گرافهای وابستگی طراحی شدهاند.
- استفاده از تستهای multi-hop برای ارزیابی پایداری منطقی مدلهای بهروزرسانیشده.
- دنبال کردن ظهور تکنیکهای ویرایش حساس به معنا (Semantics-aware).
اما درک عمیقتر از نحوه ذخیرهسازی این حقایق در لایههای مدل، موضوع پیچیدهتری است — به تحلیل ما دربارهی مکانیسمهای حافظه در ترنسفورمرها مراجعه کنید.



گفتگو