اگر تصور میکنید ترجمهٔ بنچمارکهای ایمنی انگلیسی برای ارزیابی مدلهای زبانی در بازارهای جهانی کافی است، در اشتباهید. این رویکرد نه تنها ناکارآمد است، بلکه یک «توهم امنیتی» میسازد که آسیبپذیریهای واقعی را در محیطهای عملیاتی پنهان میکند.
این شکاف در ارزیابی دقیقاً زمانی رخ میدهد که توسعهدهندگان برای بومیسازی هوش مصنوعی زاینده (Generative AI) در بازارهای جهانی عجله میکنند. اکثر بررسیهای ایمنی چندزبانه فعلی بر ترجمهٔ بذرهای انگلیسی متکی هستند و پیشفرض میگیرند که مجموعهای از آسیبها در همه فرهنگها یکسان است؛ در حالی که ایمنی در مدلها، بیش از آنکه یک مسئلهٔ ترجمه باشد، یک چالش جامعهشناختی است. همانطور که در تحلیلهای پیشین ما دربارهی پیچیدگیهای همراستاسازی (Alignment) مدلهای چندزبانه اشاره کردیم، نادیده گرفتن تفاوتهای فرهنگی در دادهها، ریسکهای پیشبینینشدهای را ایجاد میکند.
طبق گزارش پژوهشی منتشر شده در arXiv در تاریخ ۹ ژوئن ۲۰۲۶، تیمی از محققان مجموعهدادههای جفتشدهای را برای زبانهای کرهای (KO)، ژاپنی (JA)، تایلندی (TH) و خمری (KM) طراحی کردند. نتایج این مطالعه تضاد خطرناکی را در گزارشهای ایمنی نشان میدهد:
- پرامپتهای بومیسازیشده (CA)، نرخ موفقیت حمله (ASR) را بهطور متوسط ۹.۳ درصد در ۱۶ ترکیب مختلف مدل-زبان افزایش دادند.
- ترجمهٔ مستقیم (DT) در ۴۴ مورد از ۴۸ ترکیب دستهبندی-زبان، میزان ریسک را کمتر از حد واقعی تخمین زد.
- امتیاز «رئالیسم فرهنگی» برای ورودیهای ترجمهشده زیر ۱.۰ (از ۳.۰) باقی ماند، در حالی که ورودیهای بومیساز شده به ۲.۵۱ رسیدند.
به نقل از این مقاله، این یافتهها این فرض را که بنچمارکهای ایمنی انگلیس-محور قابل انتقال به سایر زبانها هستند، باطل میکند. تکیه بر ترجمهٔ مستقیم باعث میشود مدلها در بنچمارکها امن به نظر برسند، اما در برابر حملات خصمانه منطقهای آسیبپذیر بمانند. این موضوع ضرورت تغییر رویکرد را از پشتیبانی ساده از زبانها به سمت مبنیسازی (Grounding) عمیق فرهنگی تغییر میدهد.
گام بعدی شما
- اولویتدهی به ایجاد مجموعهدادههای تقابلی بومی بهجای تکیه بر ترجمهٔ بنچمارکهای غربی.
- ترکیب متخصصان جامعهشناسی و زبانشناسان محلی در فرآیندهای رِد-تیمینگ (Red-Teaming).
- رصد متدهای مقیاسپذیری این رویکرد برای مناطق متنوع زبانی دیگر مانند خاورمیانه.
اما این شکاف فرهنگی تنها بخشی از مشکل است؛ اثر این موضوع بر امنیت مدلهای بازمتن در زبانهای کم-منبع را در گزارش بعدی بررسی خواهیم کرد.
گفتگو