مطالعه استونی: دقت ۹۵.۲ درصدی Claude Fable 5 در شناسایی پروپاگاندای روسیه

اگر برای تحلیل اخبار سیاسی به هوش مصنوعی تکیه می‌کنید، احتمالاً متوجه نشده‌اید که مدل انتخابی شما تعیین می‌کند حقیقت را ببینید یا یک روایت سازمان‌یافته دولتی. این انتخاب ساده، مرز بین آگاهی و گمراهی شماست.

در ۱۶ ژوئن ۲۰۲۶، پژوهشی از مؤسسه زبان استونی شکاف عمیقی را در نحوه برخورد مدل‌ها با اطلاعات نادرست روسیه نشان داد. مدل زبانی بزرگ (LLM) — مثل کتابخانه‌داری که میلیاردها صفحه را خوانده و حالا با همان لحن کتاب‌ها جواب می‌دهد — باید بتواند تفاوت حقیقت و پروپاگاندا را بفهمد. اما نتایج نشان داد بسیاری از مدل‌ها در این آزمون شکست خوردند.

این یک ریسک امنیتی جدی است، نه فقط یک خطای فنی ساده. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی امنیت مدل‌های بازمتن اشاره کردیم، شبکه‌های روسیه مانند «پراودا» فعالانه داده‌های آموزشی مدل‌ها را با میلیون‌ها مقاله جعلی مسموم می‌کنند. هدف آن‌ها تغییر افکار عمومی در سطح جهانی است. این موضوع با اقدام اخیر OpenAI برای متوقف کردن یک کمپین پروپاگاندا در انتخابات فدرال آلمان هم‌سو است.

طبق گزارش این پژوهش، ۶۰ مدل با ۷۵ پرسش در سه زبان مختلف ارزیابی شدند:

Claude Fable 5 با امتیاز ۹۵.۲ در صدر جدول قرار گرفت و پس از آن Claude Opus 4.7 ایستاد.
مدل‌های Nemotron 3 (محصول Nvidia) و Qwen 3.6 Plus (محصول Alibaba) نیز در رده‌های بالای جدول بودند.
مدل‌های Mistral، از جمله نسخه جدید Medium 3.5، در یک‌سوم پایین رده‌بندی قرار گرفتند.

فریب مدل‌های هوش مصنوعی با تبلیغات روسی؛ نتایج یک معیار جدید

این نتایج با بررسی‌های Newsguard هم‌خوانی دارد که نرخ اطلاعات نادرست در Mistral را ۳۶.۶۷٪ اعلام کرده است. باید توجه داشت که مدل‌ها در این تست به اینترنت دسترسی نداشتند؛ بنابراین نتایج مستقیماً توانایی ذاتی مدل در شناسایی سوگیری را اندازه می‌گیرد.

برای مدیرانی که به دنبال هوش مصنوعی حاکمیتی (Sovereign AI) — یعنی مدلی که تحت کنترل و استانداردهای ملی باشد — هستند، این نتایج یک زنگ خطر است. Mistral در حال مذاکره برای جذب سرمایه ۳ میلیارد یورویی با ارزش ۲۰ میلیارد یورو است. با این حال، این شرکت در ابتدایی‌ترین سطحِ حقیقت‌سنجی، از رقبای آمریکایی عقب است. این یعنی ادعای این شرکت برای تبدیل شدن به جایگزین امن اروپایی، پایه و اساس فنی ندارد.

گام بعدی شما

تابعی از مدل خود بسازید که روایت‌های متناقض در گزارش‌های مرزی شرق اروپا را شناسایی کند.
برای تایید اعتبار اخبار ژئوپلیتیک، خروجی مدل‌های مختلف را با داده‌های Newsguard تطبیق دهید.
در ارزیابی مدل‌های اروپایی، به جای ملیت شرکت، بر روی بنچمارک‌های مستقل تمرکز کنید.

اما داستان سخت‌افزاری پشت این دقت‌ها حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

طبق گزارش این پژوهش، ۶۰ مدل با ۷۵ پرسش در سه زبان مختلف ارزیابی شدند:

Claude Fable 5 با امتیاز ۹۵.۲ در صدر جدول قرار گرفت و پس از آن Claude Opus 4.7 ایستاد.
مدل‌های Nemotron 3 (محصول Nvidia) و Qwen 3.6 Plus (محصول Alibaba) نیز در رده‌های بالای جدول بودند.
مدل‌های Mistral، از جمله نسخه جدید Medium 3.5، در یک‌سوم پایین رده‌بندی قرار گرفتند.

فریب مدل‌های هوش مصنوعی با تبلیغات روسی؛ نتایج یک معیار جدید

گام بعدی شما

تابعی از مدل خود بسازید که روایت‌های متناقض در گزارش‌های مرزی شرق اروپا را شناسایی کند.
برای تایید اعتبار اخبار ژئوپلیتیک، خروجی مدل‌های مختلف را با داده‌های Newsguard تطبیق دهید.
در ارزیابی مدل‌های اروپایی، به جای ملیت شرکت، بر روی بنچمارک‌های مستقل تمرکز کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مطالعه استونی: دقت ۹۵.۲ درصدی Claude Fable 5 در شناسایی پروپاگاندای روسیه

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مطالعه استونی: دقت ۹۵.۲ درصدی Claude Fable 5 در شناسایی پروپاگاندای روسیه

گام بعدی شما

منابع

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مطالعه استونی: دقت ۹۵.۲ درصدی Claude Fable 5 در شناسایی پروپاگاندای روسیه

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

مطالعه استونی: دقت ۹۵.۲ درصدی Claude Fable 5 در شناسایی پروپاگاندای روسیه

گام بعدی شما

منابع

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

Z.ai: برتری GLM-5.2 بر GPT-5.5 در کدنویسی بلندمدت

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران