باید بدانید که حتی پیشرفتهترین مدلهای زبانی فعلی، در برابر حملاتی که از منطق خود مدل برای تخریب آن استفاده میکنند، بیدفاع هستند. تصور کنید سیستمی که نه تنها نقاط ضعف مدل را مییابد، بلکه بهطور خودکار یاد میگیرد چگونه دفاعهای آن را دور بزند.
به نقل از مقاله arxiv.org که در ۱۲ مه ۲۰۲۶ منتشر شد، چارچوب Metis توانسته است به میانگین نرخ موفقیت ۸۹.۲ درصدی در شکستن محدودیتهای مدلهای زبانی دست یابد. این ابزار در برابر مدلهای پیشرو بسیار مؤثر عمل کرده و نرخ موفقیت ۷۸.۰ درصدی در GPT-5-chat و ۷۶.۰ درصدی در O1 را ثبت کرده است.
این تحول در حالی رخ میدهد که صنعت از روشهای ایستا در تیم قرمز (Red-teaming) به سمت کشف خودکار و پویا-ی آسیبپذیریها حرکت میکند. همانطور که در تحلیلهای پیشین ما دربارهی شکاف عملکردی مدلهای پیشرو و مدلهای کوچک اشاره کردیم، اکنون مشخص شده است که همان قابلیتهای استدلالی که مدلهای پیشرو را قدرتمند میکند، آنها را در برابر حملات پیچیده و هدایتشدهی داخلی آسیبپذیر میسازد.
طبق مستندات این پژوهش، Metis فرآیند شکستن محدودیتها را به عنوان بهینهسازی سیاست در زمان استنتاج (Inference) در یک فرآیند تصمیمگیری مارکوف نیمهمشاهدهپذیر (POMDP) بازتعریف میکند. این چارچوب از مکانیسمهای فنی کلیدی زیر بهره میبرد:
- یک حلقه فراشناختی تکاملی برای تشخیص علّی منطق دفاعی هدف.
- بازخوردهای ساختاریافته که به عنوان یک گرادیان معنایی برای اصلاح سیاستهای حمله عمل میکنند.
- ردپاهای استدلالی شفاف که تفسیرپذیری بالای مسیر حمله را فراهم میکند.
علاوه بر نرخ موفقیت، این چارچوب بسیار بهینه است و با جایگزینی اکتشافات تکراری با بهینهسازی هدفمند، هزینهی توکنها را بهطور میانگین ۸.۲ برابر و در برخی موارد تا ۱۱.۴ برابر کاهش داده است.
برای جامعهی فنی، این موضوع فرضیهی «افزایش خطی امنیت با افزایش مقیاس مدل و آموزش همراستاسازی (Alignment)» را باطل میکند. این واقعیت که Metis میتواند با «استدلال» راه خود را از میان دفاعها باز کند، نشان میدهد که سدهای امنیتی ایستا منسوخ شدهاند و صنعت باید به سمت دفاعهای پویا حرکت کند که قادر به استدلال در لحظه دربارهی امنیت باشند.
گام بعدی شما
- پژوهشگران امنیت باید توسعهی روشهای «هموارسازی تخریب-و-اصلاح» (disrupt-and-rectify smoothing) را دنبال کنند.
- بررسی متدهای اختلال در بردار معنایی (Embedding) برای بازگرداندن سدهای امنیتی فعال شود.
- ارزیابی مجدد مدلهای استدلالی با استفاده از متدولوژی POMDP برای شناسایی نقاط کور امنیتی.
اما این آسیبپذیریها تنها بخشی از یک بحران بزرگتر در امنیت مدلهای استدلالی است — به بررسی ما دربارهی ریسکهای مدلهای O-series مراجعه کنید.




گفتگو