وقتی یک مدل زبانی، یک قضیه ریاضی را به کد تبدیل میکند، موفقیت در کامپایل به معنای درست بودن پاسخ نیست. باید بدانید که کد «صحیح» میتواند قضایای کاملاً اشتباهی را اثبات کند و اینجاست که خطر کاهش وفاداری به متن اصلی خودنمایان میشود.
خودکارسازی فرمال (Autoformalization) تلاش میکند پلی میان زبان طبیعی و دستیارهای اثبات مانند لین ۴ (Lean 4) ایجاد کند. اما چالشی به نام «شکاف وفاداری» (Faithfulness Gap) همواره پابرجاست؛ یعنی کدی که از نظر سینتکس درست است و اثباتپذیر است، لزوماً با قصد نویسنده انسانی همراستا نیست. همانطور که در تحلیلهای پیشین ما دربارهی توهمهای مدلهای زبانی در استدلالهای منطقی اشاره کردیم، مشکل اصلی در اینجا عدم تطابق معنایی است.
به نقل از مقالهای که در ۱۶ ژوئن ۲۰۲۶ منتشر شد، چارچوب ردپای اثبات دوطرفه (Bidirectional Provability Fingerprinting - BPF) با شناسایی ۸۹.۶ درصد از انحرافات معنایی (Semantic Drifts) در طی فرآیند ترجمه، این مشکل را هدف قرار داده است. این رویکرد برای مقابله با خطاهای پنهان در بازنمایی مدلها، مشابه تلاشهای صورت گرفته در پروژه ReLiF برای اصلاح خطای مقیاس نمایش در مدلهای چندوظیفهای است تا از انحرافات سیستماتیک در تحلیل دادهها جلوگیری شود. بر اساس مستندات این پژوهش، سیستم BPF بر چهار نوآوری فنی استوار است:
- تولید کاوشگر خلافواقع (Counterfactual Probe Generation - CPG): رویهای تضادی که کاوشگرهایی برای هدف قرار دادن جهتهای خاص انحراف سنتز میکند.
- طیف همارزی (Equivalence Spectrum): یک امتیاز پیوستهی وفاداری که جایگزین احکام باینری و شکننده میشود.
- تخصیص تطبیقی بودجهی کاوشگر (Adaptive Probe Budget Allocation - APBA) : یک مسیریاب مبتنی بر نظریه اطلاعات برای بهینه کردن استفاده از کاوشگرها.
- رمزگشایی هدایتشده با وفاداری (Faithfulness-Guided Decoding - FGD): یک سیگنال پاداش که انتشار گزارههای منحرفشده را ۴۷ درصد کاهش میدهد.
محققان این ابزارها را با استفاده از دریفتبنچ (DriftBench) — بنچمارکی شامل ۲۱۸۳ جفت متن طبیعی/کد لین ۴ در ۶ زیرشاخه ریاضیات — اعتبارسنجی کردند. ترکیب BPF و CPG به نرخ شناسایی ۸۹.۶ درصدی رسید، در حالی که نرخ موفقیت چککردن نوع استاندارد ۴۱.۲ درصد و داورهای مبتنی بر مدل زبانی ۶۳.۳ درصد بود.
این تحول، فرضیات این حوزه را از «تأیید اکتشافی» به سمت استانداردهای «اثباتپذیر فرمال» تغییر میدهد. با تعریف یک قضیه برای تشخیص انحراف، محققان معادلسازی معنایی را به مسئلهای یادگیرانه تبدیل کردهاند و وابستگی به قضاوتهای خطاپذیر هوش مصنوعی زاینده (Generative AI) را در اثباتهای ریاضی حساس کاهش دادند.
گام بعدی شما
- نظارت بر نحوه ادغام BPF در خطلولههای اتوماتیک اثبات قضایا در مقیاس بزرگ.
- بررسی قابلیت مقیاسپذیری این متد در کل کتابخانه mathlib4.
- تحلیل اثر کاهش وابستگی به LLM-Judge بر سرعت استنتاج در سیستمهای اثبات رسمی.
اما تأثیر این دقت بر امنیت کدهای حساستر، ابعاد پیچیدگی بیشتری دارد — به بررسی ما دربارهی تأیید رسمی نرمافزار (Formal Verification) مراجعه کنید.




گفتگو