درون استراتژی دفاعی Anthropic برای نجات Claude از دست ترول‌ها

تصور کنید تنها یک پرامپت بتواند رای میلیون‌ها نفر را تغییر دهد. اگر فکر می‌کنید مدل‌های زبانی بزرگ صرفاً ابزارهای متنی هستند، باید بدانید که آن‌ها اکنون به میدان نبرد اصلی جنگ‌های اطلاعاتی تبدیل شده‌اند.

در ۲۸ آوریل ۲۰۲۶، شرکت Anthropic جزئیات امنیتی مدل‌های Claude Opus 4.7 و Claude Sonnet 4.6 را برای مقابله با سوگیری‌های سیاسی و عملیات نفوذ coordinated افشا کرد. به نقل از گزارش رسمی anthropic.com، این شرکت از ترکیبی از آموزش‌های مبتنی بر قانون اساسی و دستورات سیستمی استفاده می‌کند تا اطمینان حاصل کند که مدل‌ها با دیدگاهی تحلیلی و برابر با تمامی دیدگاه‌های سیاسی برخورد می‌کنند.

برای اثبات این ادعا، Anthropic ارزیابی‌هایی را اجرا کرد که نتایج آن تکان‌دهنده است: مدل Claude Sonnet 4.6 در ۹۶٪ و مدل Claude Opus 4.7 در ۹۵٪ موارد توانستند در مواجهه با پرامپت‌های طیف‌های مختلف سیاسی، بی‌طرفی خود را حفظ کنند.

به‌روزرسانی درباره تدابیر ایمنی انتخابات

طبق اعلام این شرکت، لایه‌های فنی برای مقابله با سوءاستفاده‌ها به شرح زیر است:

اجرای سیاست‌ها: در تست‌های ۶۰۰ پرامپتی، مدل Opus 4.7 در ۱۰۰٪ موارد و Sonnet 4.6 در ۹۹.۸٪ موارد پاسخ‌های مناسب و مطابق با قوانین دادند.
دفاع در برابر عملیات نفوذ: مقاومت مدل‌ها در برابر تلاش‌های سازمان‌یافته برای دست‌کاری، برای Opus 4.7 برابر با ۹۴٪ و برای Sonnet 4.6 برابر با ۹۰٪ بود.
کاهش ریسک خودگردان: بررسی‌ها نشان داد که بدون این لایه‌های حفاظتی، مدل‌های Mythos Preview و Opus 4.7 می‌توانستند بیش از نیمی از وظایف نفوذ خودکار را با موفقیت انجام دهند.

همان‌طور که در تحلیل قبلی ما درباره‌ی امنیت مدل‌های بازمتن اشاره کردیم، مشکل «تاریخ قطع دانش» همواره یک نقطه ضعف بوده است. برای حل این مسئله، Anthropic قابلیت جستجوی وب را ادغام کرد که در ۹۲٪ تا ۹۵٪ پرس‌وجوهای مربوط به انتخابات فعال می‌شود تا کاربر به‌جای توهم (Hallucination)، داده‌های به‌روز دریافت کند.

برای تعامل مستقیم مدنی، Claude اکنون از بنرهای انتخابات استفاده می‌کند. در انتخابات میان‌دوره‌ای آمریکا، این بنرها کاربران را به TurboVote هدایت می‌کنند و برنامه‌های مشابهی برای انتخابات برزیل در اواخر سال جاری پیش‌بینی شده است.

با رشد قابلیت‌های عامل‌محور (Agentic)، صنعت اکنون با این پرسش روبروست که آیا «امتناع از پاسخ» کافی است یا باید محدودیت‌های معماری سخت‌گیرانه‌تری برای جلوگیری از بی‌ثباتی سیاسی ایجاد کرد.

گام بعدی شما

اگر از مدل‌های Claude استفاده می‌کنید، میزان بی‌طرفی آن‌ها را با پرامپت‌های متضاد سیاسی به چالش بکشید.
برای دسترسی به منابع غیرجانب‌دار در انتخابات، از بنرهای راهنمای داخلی مدل استفاده کنید.
تغییرات در نحوه پاسخ‌دهی مدل‌ها به موضوعات حساس را در هفته‌های پیش از انتخابات رصد کنید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

به‌روزرسانی درباره تدابیر ایمنی انتخابات

طبق اعلام این شرکت، لایه‌های فنی برای مقابله با سوءاستفاده‌ها به شرح زیر است:

اجرای سیاست‌ها: در تست‌های ۶۰۰ پرامپتی، مدل Opus 4.7 در ۱۰۰٪ موارد و Sonnet 4.6 در ۹۹.۸٪ موارد پاسخ‌های مناسب و مطابق با قوانین دادند.
دفاع در برابر عملیات نفوذ: مقاومت مدل‌ها در برابر تلاش‌های سازمان‌یافته برای دست‌کاری، برای Opus 4.7 برابر با ۹۴٪ و برای Sonnet 4.6 برابر با ۹۰٪ بود.
کاهش ریسک خودگردان: بررسی‌ها نشان داد که بدون این لایه‌های حفاظتی، مدل‌های Mythos Preview و Opus 4.7 می‌توانستند بیش از نیمی از وظایف نفوذ خودکار را با موفقیت انجام دهند.

گام بعدی شما

اگر از مدل‌های Claude استفاده می‌کنید، میزان بی‌طرفی آن‌ها را با پرامپت‌های متضاد سیاسی به چالش بکشید.
برای دسترسی به منابع غیرجانب‌دار در انتخابات، از بنرهای راهنمای داخلی مدل استفاده کنید.
تغییرات در نحوه پاسخ‌دهی مدل‌ها به موضوعات حساس را در هفته‌های پیش از انتخابات رصد کنید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

درون استراتژی دفاعی Anthropic برای نجات Claude از دست ترول‌ها

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

درون استراتژی دفاعی Anthropic برای نجات Claude از دست ترول‌ها

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

درون استراتژی دفاعی Anthropic برای نجات Claude از دست ترول‌ها

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

درون استراتژی دفاعی Anthropic برای نجات Claude از دست ترول‌ها

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران