۶ هزار تلاش برای تزریق پرامپت در Claude Opus 4.6 شکست خورد

تصور کنید یک صندوق دیجیتال دارید که هزاران متخصص قفل‌سازی با پیشرفته‌ترین ابزارها سعی می‌کنند آن را باز کنند، اما در نهایت حتی یک درز کوچک هم پیدا نمی‌کنند. این دقیقاً همان اتفاقی است که برای Claude Opus 4.6 در یک آزمون استرس امنیتی رخ داد.

طبق گزارش منتشرشده در ۲۸ ژوئن ۲۰۲۶، بیش از ۶ هزار تلاش برای تزریق پرامپت (Prompt Injection) — شبیه دست دادنِ دستورات مخفی به یک کارمند برای دور زدن قوانین شرکت — برای نفوذ به این مدل صورت گرفت. این حملات در واقع تلاشی برای بهره‌برداری از حفره‌های امنیتی هستند که می‌توانند حفاظ‌های سخت‌گیرانه هوش مصنوعی را دور بزنند. در این چالش که توسط Grid the Grey اجرا شد، هدف یک دستیار ایمنی بود تا مشخص شود آیا می‌توان مدل را مجبور به افشای اسرار یا اجرای دستورات غیرمجاز کرد یا خیر. به نقل از این گزارش، مدل در برابر تمامی تلاش‌ها برای دور زدن حفاظ‌ها (Guardrails) مقاومت کامل نشان داد.

این آزمایش در زمانی رخ می‌دهد که شرکت‌ها به‌طور گسترده در حال استقرار عامل‌های (Agents) هوش مصنوعی با دسترسی به کانال‌های ارتباطی حساس هستند. همان‌طور که در پوشش پیشین ما درباره‌ی امنیت مدل‌های بازمتن دیدیم، ریسک نفوذ به لایه‌های دستوری همواره یک تهدید جدی است. در همین راستا، بررسی‌های مقایسه‌ای بر روی مدل‌های مختلف نشان داده است که میزان مقاومت در برابر نشت کلیدهای امنیتی در مدل‌های مختلف به‌طور قابل‌توجهی متفاوت است. شکست این حملات نشان می‌دهد که آموزش مدل‌ها برای شناسایی تزریق پرامپت در سطح مدل‌های پیشرو بسیار مؤثرتر شده است.

یافته‌های فنی

حجم تزریق: بیش از ۶ هزار تلاش منحصربفرد
هدف: دستیار ایمیلی مبتنی بر هوش مصنوعی
نتیجه: صفر مورد نشت داده یا اجرای دستور مخرب
مدل مورد آزمون: Claude Opus 4.6

با وجود این امتیاز بی‌نقص، جامعه کاربران Hacker News و پژوهشگران امنیتی بر یک نکته حیاتی تأکید دارند: محیط‌های تست محدود، تضمینی برای دنیای واقعی نیستند. بر اساس بررسی منابع متعدد، بردار‌های حمله‌ای که پیچیده‌تر و نوآورانه‌تر باشند، همچنان می‌توانند از آموزش‌های فعلی عبور کنند.

برای کسب‌وکارها، این بدان معناست که تکیه صرف به دفاعات داخلی مدل در سناریوهای «ضرر غیرقابل بازگشت»، یک قمار خطرناک است. امنیت در سطح مدل تنها لایه نخست است و نمی‌تواند جایگزین ساختارهای معماری سیستمی، مانند تأیید انسانی برای اقدامات حساس شود.

گام بعدی شما

اگر از عامل‌های AI برای مدیریت ایمیل یا داده‌های حساس استفاده می‌کنید، لایه‌ی تأیید انسانی (Human-in-the-loop) را حذف نکنید.
گزارش فنی Grid the Grey را برای بررسی بردار‌های حمله مطالعه کنید تا نقاط ضعف احتمالی در سیستم خود را بیابید.
استراتژی دفاعی خود را از «اعتماد به مدل» به «دفاع در عمق» تغییر دهید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

یافته‌های فنی

حجم تزریق: بیش از ۶ هزار تلاش منحصربفرد
هدف: دستیار ایمیلی مبتنی بر هوش مصنوعی
نتیجه: صفر مورد نشت داده یا اجرای دستور مخرب
مدل مورد آزمون: Claude Opus 4.6

گام بعدی شما

اگر از عامل‌های AI برای مدیریت ایمیل یا داده‌های حساس استفاده می‌کنید، لایه‌ی تأیید انسانی (Human-in-the-loop) را حذف نکنید.
گزارش فنی Grid the Grey را برای بررسی بردار‌های حمله مطالعه کنید تا نقاط ضعف احتمالی در سیستم خود را بیابید.
استراتژی دفاعی خود را از «اعتماد به مدل» به «دفاع در عمق» تغییر دهید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

۶ هزار تلاش برای تزریق پرامپت در Claude Opus 4.6 شکست خورد

یافته‌های فنی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

۶ هزار تلاش برای تزریق پرامپت در Claude Opus 4.6 شکست خورد

یافته‌های فنی

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

۶ هزار تلاش برای تزریق پرامپت در Claude Opus 4.6 شکست خورد

یافته‌های فنی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

۶ هزار تلاش برای تزریق پرامپت در Claude Opus 4.6 شکست خورد

یافته‌های فنی

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران