تصور کنید یک صندوق دیجیتال دارید که هزاران متخصص قفلسازی با پیشرفتهترین ابزارها سعی میکنند آن را باز کنند، اما در نهایت حتی یک درز کوچک هم پیدا نمیکنند. این دقیقاً همان اتفاقی است که برای Claude Opus 4.6 در یک آزمون استرس امنیتی رخ داد.
طبق گزارش منتشرشده در ۲۸ ژوئن ۲۰۲۶، بیش از ۶ هزار تلاش برای تزریق پرامپت (Prompt Injection) — شبیه دست دادنِ دستورات مخفی به یک کارمند برای دور زدن قوانین شرکت — برای نفوذ به این مدل صورت گرفت. این حملات در واقع تلاشی برای بهرهبرداری از حفرههای امنیتی هستند که میتوانند حفاظهای سختگیرانه هوش مصنوعی را دور بزنند. در این چالش که توسط Grid the Grey اجرا شد، هدف یک دستیار ایمنی بود تا مشخص شود آیا میتوان مدل را مجبور به افشای اسرار یا اجرای دستورات غیرمجاز کرد یا خیر. به نقل از این گزارش، مدل در برابر تمامی تلاشها برای دور زدن حفاظها (Guardrails) مقاومت کامل نشان داد.
این آزمایش در زمانی رخ میدهد که شرکتها بهطور گسترده در حال استقرار عاملهای (Agents) هوش مصنوعی با دسترسی به کانالهای ارتباطی حساس هستند. همانطور که در پوشش پیشین ما دربارهی امنیت مدلهای بازمتن دیدیم، ریسک نفوذ به لایههای دستوری همواره یک تهدید جدی است. در همین راستا، بررسیهای مقایسهای بر روی مدلهای مختلف نشان داده است که میزان مقاومت در برابر نشت کلیدهای امنیتی در مدلهای مختلف بهطور قابلتوجهی متفاوت است. شکست این حملات نشان میدهد که آموزش مدلها برای شناسایی تزریق پرامپت در سطح مدلهای پیشرو بسیار مؤثرتر شده است.
یافتههای فنی
- حجم تزریق: بیش از ۶ هزار تلاش منحصربفرد
- هدف: دستیار ایمیلی مبتنی بر هوش مصنوعی
- نتیجه: صفر مورد نشت داده یا اجرای دستور مخرب
- مدل مورد آزمون: Claude Opus 4.6
با وجود این امتیاز بینقص، جامعه کاربران Hacker News و پژوهشگران امنیتی بر یک نکته حیاتی تأکید دارند: محیطهای تست محدود، تضمینی برای دنیای واقعی نیستند. بر اساس بررسی منابع متعدد، بردارهای حملهای که پیچیدهتر و نوآورانهتر باشند، همچنان میتوانند از آموزشهای فعلی عبور کنند.
برای کسبوکارها، این بدان معناست که تکیه صرف به دفاعات داخلی مدل در سناریوهای «ضرر غیرقابل بازگشت»، یک قمار خطرناک است. امنیت در سطح مدل تنها لایه نخست است و نمیتواند جایگزین ساختارهای معماری سیستمی، مانند تأیید انسانی برای اقدامات حساس شود.
گام بعدی شما
- اگر از عاملهای AI برای مدیریت ایمیل یا دادههای حساس استفاده میکنید، لایهی تأیید انسانی (Human-in-the-loop) را حذف نکنید.
- گزارش فنی Grid the Grey را برای بررسی بردارهای حمله مطالعه کنید تا نقاط ضعف احتمالی در سیستم خود را بیابید.
- استراتژی دفاعی خود را از «اعتماد به مدل» به «دفاع در عمق» تغییر دهید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو