حمله CFD: افزایش ۲۸.۳ درصدی موفقیت جیل‌بریک از طریق «شکاف منشأ» در مدل‌ها

اگر اکنون در حال استقرار عامل‌های هوش مصنوعی (AI Agents) هستید که از ابزارها استفاده می‌کنند، باید بدانید فیلترهای امنیتی فعلی شما یک نقطه کور بحرانی دارند. تصور کنید حمله‌ای که نه در متن پیام‌ها، بلکه در دل فایل‌های تنظیمات و لاگ‌های سیستم پنهان شده و در لحظه‌ای غیرمنتظره فعال شود.

این آسیب‌پذیری از چیزی به نام شکاف منشأ (Provenance Gap) نشأت می‌گیرد. در حالی که اکثر دفاعات فعلی بر تاریخچه گفتگو متمرکز هستند، بستر کاری (Workspace) مدل نادیده گرفته می‌شود. همان‌طور که در تحلیل قبلی ما درباره‌ی SafeRun و تلاش آن برای ایجاد ایمنی قطعی در برنامه‌ریزی اشاره کردیم، متوجه شدیم که نظارت بر خروجی نهایی کافی نیست و متغیرهای محیطی می‌توانند امنیت را به مخاطره بیندازند.

طبق مقاله‌ای که در ۹ ژوئن ۲۰۲۶ در arxiv.org منتشر شد، متد جدیدی به نام تجزیهٔ قطعه‌قطعه‌شده‌ی بافت (Context-Fractured Decomposition یا CFD) معرفی شده است. در این حمله، درخواست‌های مضر به تکه‌های کوچک و بی‌خطر تقسیم شده و در قالب فایل‌های پیکربندی یا لاگ‌های سیستمی ذخیره می‌شوند. این آثار در ابتدا هیچ هشدار امنیتی ایجاد نمی‌کنند، اما هنگام بازسازی در مراحل بعدی گردش کار، رفتار مضر را در مدل تحریک می‌کنند.

یافته‌های فنی کلیدی این پژوهش عبارت‌اند از:

افزایش موفقیت: متد CFD نرخ موفقیت جیل‌بریک (Jailbreak) را تا ۲۸.۳ درصد نسبت به مدل‌های پایه افزایش داد.
دور زدن داوران: به دلیل اینکه هر تکه از داده به‌تنهایی بی‌خطر به نظر می‌رسد، داوران تک-مرحله‌ای (Single-turn judges) هیچ هشدار امنیتی صادر نمی‌کنند.
علت شکست: عدم توانایی سیستم در ردیابی منشأ و تاریخچه تغییرات هر اثر (Artifact) در طول چرخه حیات عامل.

این یافته، پارادایم امنیتی عامل‌های هوش مصنوعی را از «فیلتر متنی» به «ردیابی آثار» تغییر می‌دهد. تحلیل ما نشان می‌دهد که دیگر نمی‌توان به تحلیل جفت‌های «پرامپت-پاسخ» اکتفا کرد؛ بلکه باید تاریخچه‌ای قابل تأیید از نحوه ایجاد هر ورودی در محیط کاری داشته باشیم تا از ترکیبات مخرب پیشگیری کنیم.

گام بعدی شما

پیاده‌سازی برچسب‌گذاری سلسله‌مراتب منشأ (Provenance Lineage Tagging) برای تأیید منبع هر فایل.
بازبینی بنچمارک‌های امنیتی برای تست ترکیب‌های متقاطع (Cross-context compositions).
نظارت بر انتشار بنچمارک‌های جدیدی که ریسک‌های واسطه‌محور را هدف قرار می‌دهند.

اما این تنها بخشی از چالش‌های امنیتی است؛ برای درک نحوه مقابله با حملات تزریق پرامپت در لایه‌های زیرین، تحلیل ما درباره معماری‌های نظارتی را بخوانید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

یافته‌های فنی کلیدی این پژوهش عبارت‌اند از:

افزایش موفقیت: متد CFD نرخ موفقیت جیل‌بریک (Jailbreak) را تا ۲۸.۳ درصد نسبت به مدل‌های پایه افزایش داد.
دور زدن داوران: به دلیل اینکه هر تکه از داده به‌تنهایی بی‌خطر به نظر می‌رسد، داوران تک-مرحله‌ای (Single-turn judges) هیچ هشدار امنیتی صادر نمی‌کنند.
علت شکست: عدم توانایی سیستم در ردیابی منشأ و تاریخچه تغییرات هر اثر (Artifact) در طول چرخه حیات عامل.

گام بعدی شما

پیاده‌سازی برچسب‌گذاری سلسله‌مراتب منشأ (Provenance Lineage Tagging) برای تأیید منبع هر فایل.
بازبینی بنچمارک‌های امنیتی برای تست ترکیب‌های متقاطع (Cross-context compositions).
نظارت بر انتشار بنچمارک‌های جدیدی که ریسک‌های واسطه‌محور را هدف قرار می‌دهند.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

حمله CFD: افزایش ۲۸.۳ درصدی موفقیت جیل‌بریک از طریق «شکاف منشأ» در مدل‌ها

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

حمله CFD: افزایش ۲۸.۳ درصدی موفقیت جیل‌بریک از طریق «شکاف منشأ» در مدل‌ها

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

حمله CFD: افزایش ۲۸.۳ درصدی موفقیت جیل‌بریک از طریق «شکاف منشأ» در مدل‌ها

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

حمله CFD: افزایش ۲۸.۳ درصدی موفقیت جیل‌بریک از طریق «شکاف منشأ» در مدل‌ها

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران