تصور کنید تنها یک پرامپت بتواند رای میلیونها نفر را تغییر دهد. اگر فکر میکنید مدلهای زبانی بزرگ صرفاً ابزارهای متنی هستند، باید بدانید که آنها اکنون به میدان نبرد اصلی جنگهای اطلاعاتی تبدیل شدهاند.
در ۲۸ آوریل ۲۰۲۶، شرکت Anthropic جزئیات امنیتی مدلهای Claude Opus 4.7 و Claude Sonnet 4.6 را برای مقابله با سوگیریهای سیاسی و عملیات نفوذ coordinated افشا کرد. به نقل از گزارش رسمی anthropic.com، این شرکت از ترکیبی از آموزشهای مبتنی بر قانون اساسی و دستورات سیستمی استفاده میکند تا اطمینان حاصل کند که مدلها با دیدگاهی تحلیلی و برابر با تمامی دیدگاههای سیاسی برخورد میکنند.
برای اثبات این ادعا، Anthropic ارزیابیهایی را اجرا کرد که نتایج آن تکاندهنده است: مدل Claude Sonnet 4.6 در ۹۶٪ و مدل Claude Opus 4.7 در ۹۵٪ موارد توانستند در مواجهه با پرامپتهای طیفهای مختلف سیاسی، بیطرفی خود را حفظ کنند.

طبق اعلام این شرکت، لایههای فنی برای مقابله با سوءاستفادهها به شرح زیر است:
- اجرای سیاستها: در تستهای ۶۰۰ پرامپتی، مدل Opus 4.7 در ۱۰۰٪ موارد و Sonnet 4.6 در ۹۹.۸٪ موارد پاسخهای مناسب و مطابق با قوانین دادند.
- دفاع در برابر عملیات نفوذ: مقاومت مدلها در برابر تلاشهای سازمانیافته برای دستکاری، برای Opus 4.7 برابر با ۹۴٪ و برای Sonnet 4.6 برابر با ۹۰٪ بود.
- کاهش ریسک خودگردان: بررسیها نشان داد که بدون این لایههای حفاظتی، مدلهای Mythos Preview و Opus 4.7 میتوانستند بیش از نیمی از وظایف نفوذ خودکار را با موفقیت انجام دهند.
همانطور که در تحلیل قبلی ما دربارهی امنیت مدلهای بازمتن اشاره کردیم، مشکل «تاریخ قطع دانش» همواره یک نقطه ضعف بوده است. برای حل این مسئله، Anthropic قابلیت جستجوی وب را ادغام کرد که در ۹۲٪ تا ۹۵٪ پرسوجوهای مربوط به انتخابات فعال میشود تا کاربر بهجای توهم (Hallucination)، دادههای بهروز دریافت کند.
برای تعامل مستقیم مدنی، Claude اکنون از بنرهای انتخابات استفاده میکند. در انتخابات میاندورهای آمریکا، این بنرها کاربران را به TurboVote هدایت میکنند و برنامههای مشابهی برای انتخابات برزیل در اواخر سال جاری پیشبینی شده است.
با رشد قابلیتهای عاملمحور (Agentic)، صنعت اکنون با این پرسش روبروست که آیا «امتناع از پاسخ» کافی است یا باید محدودیتهای معماری سختگیرانهتری برای جلوگیری از بیثباتی سیاسی ایجاد کرد.
گام بعدی شما
- اگر از مدلهای Claude استفاده میکنید، میزان بیطرفی آنها را با پرامپتهای متضاد سیاسی به چالش بکشید.
- برای دسترسی به منابع غیرجانبدار در انتخابات، از بنرهای راهنمای داخلی مدل استفاده کنید.
- تغییرات در نحوه پاسخدهی مدلها به موضوعات حساس را در هفتههای پیش از انتخابات رصد کنید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو