سازوکار Metis: چگونه یک حلقه فراشناختی سدهای امنیتی GPT-5 و O1 را می‌شکند؟

باید بدانید که حتی پیشرفته‌ترین مدل‌های زبانی فعلی، در برابر حملاتی که از منطق خود مدل برای تخریب آن استفاده می‌کنند، بی‌دفاع هستند. تصور کنید سیستمی که نه تنها نقاط ضعف مدل را می‌یابد، بلکه به‌طور خودکار یاد می‌گیرد چگونه دفاع‌های آن را دور بزند.

به نقل از مقاله arxiv.org که در ۱۲ مه ۲۰۲۶ منتشر شد، چارچوب Metis توانسته است به میانگین نرخ موفقیت ۸۹.۲ درصدی در شکستن محدودیت‌های مدل‌های زبانی دست یابد. این ابزار در برابر مدل‌های پیشرو بسیار مؤثر عمل کرده و نرخ موفقیت ۷۸.۰ درصدی در GPT-5-chat و ۷۶.۰ درصدی در O1 را ثبت کرده است.

این تحول در حالی رخ می‌دهد که صنعت از روش‌های ایستا در تیم قرمز (Red-teaming) به سمت کشف خودکار و پویا-ی آسیب‌پذیری‌ها حرکت می‌کند. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی شکاف عملکردی مدل‌های پیشرو و مدل‌های کوچک اشاره کردیم، اکنون مشخص شده است که همان قابلیت‌های استدلالی که مدل‌های پیشرو را قدرتمند می‌کند، آن‌ها را در برابر حملات پیچیده و هدایت‌شده‌ی داخلی آسیب‌پذیر می‌سازد.

طبق مستندات این پژوهش، Metis فرآیند شکستن محدودیت‌ها را به عنوان بهینه‌سازی سیاست در زمان استنتاج (Inference) در یک فرآیند تصمیم‌گیری مارکوف نیمه‌مشاهده‌پذیر (POMDP) بازتعریف می‌کند. این چارچوب از مکانیسم‌های فنی کلیدی زیر بهره می‌برد:

یک حلقه فراشناختی تکاملی برای تشخیص علّی منطق دفاعی هدف.
بازخوردهای ساختاریافته که به عنوان یک گرادیان معنایی برای اصلاح سیاست‌های حمله عمل می‌کنند.
ردپاهای استدلالی شفاف که تفسیرپذیری بالای مسیر حمله را فراهم می‌کند.

علاوه بر نرخ موفقیت، این چارچوب بسیار بهینه است و با جایگزینی اکتشافات تکراری با بهینه‌سازی هدفمند، هزینه‌ی توکن‌ها را به‌طور میانگین ۸.۲ برابر و در برخی موارد تا ۱۱.۴ برابر کاهش داده است.

برای جامعه‌ی فنی، این موضوع فرضیه‌ی «افزایش خطی امنیت با افزایش مقیاس مدل و آموزش همراستاسازی (Alignment)» را باطل می‌کند. این واقعیت که Metis می‌تواند با «استدلال» راه خود را از میان دفاع‌ها باز کند، نشان می‌دهد که سدهای امنیتی ایستا منسوخ شده‌اند و صنعت باید به سمت دفاع‌های پویا حرکت کند که قادر به استدلال در لحظه درباره‌ی امنیت باشند.

گام بعدی شما

پژوهشگران امنیت باید توسعه‌ی روش‌های «هموارسازی تخریب-و-اصلاح» (disrupt-and-rectify smoothing) را دنبال کنند.
بررسی متدهای اختلال در بردار معنایی (Embedding) برای بازگرداندن سدهای امنیتی فعال شود.
ارزیابی مجدد مدل‌های استدلالی با استفاده از متدولوژی POMDP برای شناسایی نقاط کور امنیتی.

اما این آسیب‌پذیری‌ها تنها بخشی از یک بحران بزرگ‌تر در امنیت مدل‌های استدلالی است — به بررسی ما درباره‌ی ریسک‌های مدل‌های O-series مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

یک حلقه فراشناختی تکاملی برای تشخیص علّی منطق دفاعی هدف.
بازخوردهای ساختاریافته که به عنوان یک گرادیان معنایی برای اصلاح سیاست‌های حمله عمل می‌کنند.
ردپاهای استدلالی شفاف که تفسیرپذیری بالای مسیر حمله را فراهم می‌کند.

گام بعدی شما

پژوهشگران امنیت باید توسعه‌ی روش‌های «هموارسازی تخریب-و-اصلاح» (disrupt-and-rectify smoothing) را دنبال کنند.
بررسی متدهای اختلال در بردار معنایی (Embedding) برای بازگرداندن سدهای امنیتی فعال شود.
ارزیابی مجدد مدل‌های استدلالی با استفاده از متدولوژی POMDP برای شناسایی نقاط کور امنیتی.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سازوکار Metis: چگونه یک حلقه فراشناختی سدهای امنیتی GPT-5 و O1 را می‌شکند؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سازوکار Metis: چگونه یک حلقه فراشناختی سدهای امنیتی GPT-5 و O1 را می‌شکند؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سازوکار Metis: چگونه یک حلقه فراشناختی سدهای امنیتی GPT-5 و O1 را می‌شکند؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

سازوکار Metis: چگونه یک حلقه فراشناختی سدهای امنیتی GPT-5 و O1 را می‌شکند؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران