اگر برای تحلیل اخبار سیاسی به هوش مصنوعی تکیه میکنید، احتمالاً متوجه نشدهاید که مدل انتخابی شما تعیین میکند حقیقت را ببینید یا یک روایت سازمانیافته دولتی. این انتخاب ساده، مرز بین آگاهی و گمراهی شماست.
در ۱۶ ژوئن ۲۰۲۶، پژوهشی از مؤسسه زبان استونی شکاف عمیقی را در نحوه برخورد مدلها با اطلاعات نادرست روسیه نشان داد. مدل زبانی بزرگ (LLM) — مثل کتابخانهداری که میلیاردها صفحه را خوانده و حالا با همان لحن کتابها جواب میدهد — باید بتواند تفاوت حقیقت و پروپاگاندا را بفهمد. اما نتایج نشان داد بسیاری از مدلها در این آزمون شکست خوردند.
این یک ریسک امنیتی جدی است، نه فقط یک خطای فنی ساده. همانطور که در تحلیلهای پیشین ما دربارهی امنیت مدلهای بازمتن اشاره کردیم، شبکههای روسیه مانند «پراودا» فعالانه دادههای آموزشی مدلها را با میلیونها مقاله جعلی مسموم میکنند. هدف آنها تغییر افکار عمومی در سطح جهانی است. این موضوع با اقدام اخیر OpenAI برای متوقف کردن یک کمپین پروپاگاندا در انتخابات فدرال آلمان همسو است.
طبق گزارش این پژوهش، ۶۰ مدل با ۷۵ پرسش در سه زبان مختلف ارزیابی شدند:
- Claude Fable 5 با امتیاز ۹۵.۲ در صدر جدول قرار گرفت و پس از آن Claude Opus 4.7 ایستاد.
- مدلهای Nemotron 3 (محصول Nvidia) و Qwen 3.6 Plus (محصول Alibaba) نیز در ردههای بالای جدول بودند.
- مدلهای Mistral، از جمله نسخه جدید Medium 3.5، در یکسوم پایین ردهبندی قرار گرفتند.

این نتایج با بررسیهای Newsguard همخوانی دارد که نرخ اطلاعات نادرست در Mistral را ۳۶.۶۷٪ اعلام کرده است. باید توجه داشت که مدلها در این تست به اینترنت دسترسی نداشتند؛ بنابراین نتایج مستقیماً توانایی ذاتی مدل در شناسایی سوگیری را اندازه میگیرد.
برای مدیرانی که به دنبال هوش مصنوعی حاکمیتی (Sovereign AI) — یعنی مدلی که تحت کنترل و استانداردهای ملی باشد — هستند، این نتایج یک زنگ خطر است. Mistral در حال مذاکره برای جذب سرمایه ۳ میلیارد یورویی با ارزش ۲۰ میلیارد یورو است. با این حال، این شرکت در ابتداییترین سطحِ حقیقتسنجی، از رقبای آمریکایی عقب است. این یعنی ادعای این شرکت برای تبدیل شدن به جایگزین امن اروپایی، پایه و اساس فنی ندارد.
گام بعدی شما
- تابعی از مدل خود بسازید که روایتهای متناقض در گزارشهای مرزی شرق اروپا را شناسایی کند.
- برای تایید اعتبار اخبار ژئوپلیتیک، خروجی مدلهای مختلف را با دادههای Newsguard تطبیق دهید.
- در ارزیابی مدلهای اروپایی، به جای ملیت شرکت، بر روی بنچمارکهای مستقل تمرکز کنید.
اما داستان سختافزاری پشت این دقتها حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو