چرا ۸۴ درصد از تست‌های پایداری هوش مصنوعی در شناسایی شکست‌ها ناکام می‌مانند؟

اگر در حال ساخت عامل‌های هوش مصنوعی هستید که خودشان تکامل می‌یابند، با یک ریسک وحشتناک رو‌به‌رو هستید: یک به‌روزرسانی ساختاری ساده می‌تواند حافظه مدل شما را از مسیر خارج کرده و باعث فروپاشی کامل سیستم شود. در ۶ ژوئن ۲۰۲۶، تیمی به رهبری کازوفومی فوروسه (Kazufumi Furuse) با معرفی llcore راهکاری ارائه داد که به‌روزرسانی‌های حافظه را پیش از پذیرش، از یک «چک‌پوینت اثباتی» ریاضی عبور می‌دهد.

طبق مستندات این پروژه در dev.to، این سیستم تضمین می‌کند هیچ به‌روزرسانی‌ای پذیرفته نشود مگر اینکه پایداری آن از نظر ریاضی ثابت شده باشد. اکثر توسعه‌دهندگان امروز از «تجربه» استفاده می‌کنند؛ یعنی چند نمونه را تست می‌کنند و امیدوارند مدل پایدار بماند. این یک قمار خطرناک است، چون قوانین ساده می‌توانند «توهمی» از نظم ایجاد کنند.

تصور کنید مدلی در هزاران تست پایدار به نظر برسد، اما یک ویژگی ریاضی پنهان داشته باشد که در گام هزار و یکم، سیستم را نابود کند. پژوهشگران این پدیده را «توهم مورچه لنگتون» می‌نامند؛ جایی که مشاهده تجربی نمی‌تواند ماهیت زیربنایی ناپایداری را ببیند. همان‌طور که در تحلیل‌های قبلی ما درباره امنیت مدل‌های بازمتن اشاره کردیم، تکیه بر تست‌های سطحی در سیستم‌های پیچیده همیشه منجر به شکست می‌شود.

در این پروژه، تیم از مدل زبانی بزرگ (LLM) — مثل کتابخانه‌داری که میلیاردها صفحه را خوانده و حالا با همان لحن کتاب‌ها جواب می‌دهد — برای بررسی پایداری استفاده کرد. آن‌ها متوجه شدند که چون زیرساخت مدل از تابع tanh استفاده می‌کند، خروجی‌ها حتی در حالت ناپایدار هم منفجر نمی‌شوند و این موضوع باعث می‌شود ناپایداری از چشم ناظر پنهان بماند. تنها ارزیابی «بدترین حالت» (box-sup) می‌تواند این حفره را پیدا کند.

برای حل این مشکل، تیم یک گیت «اول اثبات، بعد پذیرش» ساخت. این گیت به‌جای بررسی ظاهری تغییرات، از اثبات‌های انقباضی (Contraction Proofs) استفاده می‌کند تا تضمین کند شعاع طیفی هسته حافظه زیر ۱ باقی بماند. اگر اثبات شکست بخورد، تغییر بلافاصله رد می‌شود.

برای اطمینان از نوآوری این روش، تیم ۵۶ عامل هوش مصنوعی متخاصم را به کار گرفت تا تمام پتنت‌ها و مقالات موجود را جست‌وجو کنند. آن‌ها از ۷ زاویه مختلف، از جمله پایداری ترنسفورمرها و تضمین زمان اجرا، منابع را بررسی کردند. طبق گزارش این تیم، هیچ پتنت یا مقاله‌ای یافت نشد که هر چهار شرط حیاتی این سیستم را به‌طور هم‌زمان داشته باشد.

مجموعه کمان تأیید llcore #۳۸–#۴۲ : افشای دفاعی، دیوار ۲ⁿ، غلبه گرادیان قوی بر تکامل

این چهار شرط حیاتی عبارت‌اند از:

اثبات انقباضی معتبر: تضمینی ریاضی که می‌گوید نوسانات گذشته با گذشت زمان میرا می‌شوند.
کاربرد در هسته حافظه LLM: اعمال این اثبات دقیقاً روی بخش «به‌یادآوری» مدل (از خانواده RWKV).
یکپارچگی با حلقه تکامل: عملکرد در چرخه «جهش $\rightarrow$ انتخاب $\rightarrow$ نسل بعدی» با گیت رد-سریع.
پیاده‌سازی عملی: ارائه یک سیستم واقعی و نه صرفاً یک تئوری روی کاغذ.

تیم برای تعادل بین سرعت و دقت، یک «نردبان تاییدکننده» سه پله‌ای طراحی کرد:

cert_inf: سریع‌ترین و محافظه‌کارترین حالت که ۶۰ تا ۸۰ درصد موارد ایمن را هم به اشتباه رد می‌کند.
cert_two: دقیق‌تر است اما با افزایش اندازه بلوک‌ها، به‌سرعت با دیوار محاسباتی برخورد می‌کند.
cert_sdp: استاندارد طلایی که با استفاده از حل‌کننده CLARABEL، ۹۰ تا ۹۹ درصد موارد ایمن را می‌پذیرد.

با این حال، یک محدودیت سخت وجود دارد: دیوار $2^n$. هزینه محاسباتی این اثبات‌ها با رشد اندازه بلوک حافظه به‌صورت نمایی زیاد می‌شود. در تست‌های ژوئن ۲۰۲۶، برای بلوک‌های کوچک (n=6) پردازش بسیار سریع بود، اما در n=14، هزینه از بودجه زمانی خارج شد و عملاً غیرممکن گشت.

یک سوال کلیدی باقی بود: آیا این تکامل حافظه مدل را باهوش‌تر می‌کند؟ تیم llcore را روی داده‌های SmolLM2-135M تست کرد. نتایج تکان‌دهنده بود: روش تکاملی در برابر روش‌های ضعیف پیروز شد، اما وقتی با یک گرادینت تحلیلی قوی (مثل Adam که در آموزش واقعی LLMها استفاده می‌شود) رو‌به‌رو شد، ۱۹ بار از ۲۰ بار شکست خورد.

این یعنی تکامل ساختاری لزوماً قابلیت‌های مدل را بالا نمی‌برد، بلکه فقط «تضمین ایمنی» می‌دهد. در واقع، این گیت‌های سخت‌گیرانه حتی باعث کاهش اندک انعطاف‌پذیری مدل شدند.

مجموعه آرک تأیید llcore #۳۸-#۴۲ : افشای دفاعی، دیوار ۲ⁿ، گرادیان قوی بر تکامل

در نهایت، این سیستم روی Mamba-130M نیز پیاده شد و نشان داد که می‌توان آن را به مدل‌های مختلف متصل کرد. همچنین یک «گیت اخلاقی» دو لایه اضافه شد: لایه‌ای برای جسارت در اکتشاف و لایه‌ای برای صداقت در پذیرش تغییرات.

گام بعدی شما

اگر از معماری‌های بازگشتی (Recurrent) در حافظه مدل استفاده می‌کنید، به‌جای تست‌های تصادفی، معیارهای شعاع طیفی (Spectral Radius) را بررسی کنید.
برای سیستم‌های حساس، استراتژی «رد-سریع» (Fail-Closed) را جایگزین «اصلاح-بعدی» کنید.
بررسی کنید آیا ابزارهای SMT مانند Z3 در پروژه شما واقعاً ارزش محاسباتی دارند یا می‌توانند با فرمول‌های بسته جایگزین شوند.

اما هزینه این ایمنی در مقیاس‌های بزرگتر چیست؟ پاسخ در تحلیل ما درباره تراشه‌های Blackwell و مدیریت حافظه در سخت‌افزار نهفته است.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

مجموعه کمان تأیید llcore #۳۸–#۴۲ : افشای دفاعی، دیوار ۲ⁿ، غلبه گرادیان قوی بر تکامل

این چهار شرط حیاتی عبارت‌اند از:

اثبات انقباضی معتبر: تضمینی ریاضی که می‌گوید نوسانات گذشته با گذشت زمان میرا می‌شوند.
کاربرد در هسته حافظه LLM: اعمال این اثبات دقیقاً روی بخش «به‌یادآوری» مدل (از خانواده RWKV).
یکپارچگی با حلقه تکامل: عملکرد در چرخه «جهش $\rightarrow$ انتخاب $\rightarrow$ نسل بعدی» با گیت رد-سریع.
پیاده‌سازی عملی: ارائه یک سیستم واقعی و نه صرفاً یک تئوری روی کاغذ.

تیم برای تعادل بین سرعت و دقت، یک «نردبان تاییدکننده» سه پله‌ای طراحی کرد:

cert_inf: سریع‌ترین و محافظه‌کارترین حالت که ۶۰ تا ۸۰ درصد موارد ایمن را هم به اشتباه رد می‌کند.
cert_two: دقیق‌تر است اما با افزایش اندازه بلوک‌ها، به‌سرعت با دیوار محاسباتی برخورد می‌کند.
cert_sdp: استاندارد طلایی که با استفاده از حل‌کننده CLARABEL، ۹۰ تا ۹۹ درصد موارد ایمن را می‌پذیرد.

مجموعه آرک تأیید llcore #۳۸-#۴۲ : افشای دفاعی، دیوار ۲ⁿ، گرادیان قوی بر تکامل

گام بعدی شما

اگر از معماری‌های بازگشتی (Recurrent) در حافظه مدل استفاده می‌کنید، به‌جای تست‌های تصادفی، معیارهای شعاع طیفی (Spectral Radius) را بررسی کنید.
برای سیستم‌های حساس، استراتژی «رد-سریع» (Fail-Closed) را جایگزین «اصلاح-بعدی» کنید.
بررسی کنید آیا ابزارهای SMT مانند Z3 در پروژه شما واقعاً ارزش محاسباتی دارند یا می‌توانند با فرمول‌های بسته جایگزین شوند.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا ۸۴ درصد از تست‌های پایداری هوش مصنوعی در شناسایی شکست‌ها ناکام می‌مانند؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا ۸۴ درصد از تست‌های پایداری هوش مصنوعی در شناسایی شکست‌ها ناکام می‌مانند؟

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا ۸۴ درصد از تست‌های پایداری هوش مصنوعی در شناسایی شکست‌ها ناکام می‌مانند؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

چرا ۸۴ درصد از تست‌های پایداری هوش مصنوعی در شناسایی شکست‌ها ناکام می‌مانند؟

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران