پژوهشگران دانشگاه چینگهوا و مؤسسات دیگر روشی نوآورانه به نام همترازی معنایی زبانآگنوستیک (LASA) معرفی کردهاند که هدف آن بهبود ایمنی مدلهای زبانی بزرگ در تمام زبانها، از جمله زبانهایی با منابع دیجیتال محدود است.
این تیم تحقیقاتی ناسازگاری بنیادینی را در نحوه پردازش ایمنی توسط مدلهای زبانی فعلی شناسایی کردهاند. در حالی که این مدلها در زبانهای پرمنابع مانند انگلیسی عملکرد ایمنی قوی دارند، در زبانهای کممنابع آسیبپذیریهای جدی از خود نشان میدهند. محققان دلیل اصلی این مشکل را شکاف میان درک معنایی مستقل از زبان و همترازی ایمنی وابسته به زبان میدانند.
محور اصلی این رویکرد، شناسایی مفهومی به نام «گلوگاه معنایی» در مدلهای زبانی است. این لایه میانی نقطهای در معماری مدل است که هندسه بازنمایی آن عمدتاً توسط محتوای معنایی مشترک و نه هویت زبانی خاص اداره میشود. بر پایه این کشف، LASA همترازی ایمنی را مستقیماً به این گلوگاه معنایی verankert میکند و مکانیزم ایمنی مستقل از زبان ایجاد مینماید.
نتایج تجربی بهبودهای چشمگیری را نشان میدهد. در مدل LLaMA-3.1-8B-Instruct، نرخ متوسط موفقیت حملات پس از اعمال LASA از ۲۴.۷ درصد به تنها ۲.۸ درصد کاهش یافت. این روش عملکرد سازگاری در خانواده مدلهای Qwen2.5 و Qwen3 Instruct با پارامترهای ۷ تا ۳۲ میلیارد حفظ کرده و نرخ موفقیت حملات در محدوده ۳ تا ۴ درصد باقی مانده است.
پیامدهای این تحقیق برای جامعه هوش مصنوعی قابل توجه است. با گسترش استقرار مدلهای زبانی در سطح جهانی، تضمین رفتار ایمنی سازگار در زبانهای مختلف اهمیت فزایندهای یافته. رویکردهای فعلی اغلب نیازمند همترازی ایمنی جداگانه برای هر زبان هستند که پرهزینه است و همچنان شکافهایی باقی میگذارد. LASA راهحلی بنیادیتر ارائه میدهد با verankern کردن درک ایمنی در سطح معنایی، جایی که معنا از مرزهای زبانی فراتر میرود.
این پژوهش در آوریل ۲۰۲۶ در پلتفرم arXiv منتشر شده و نشان میدهد تلاشهای آینده در زمینه همترازی ایمنی باید بر مداخلات سطح نمایش (representation-level) به جای فیلترینگ متنی سطحی متمرکز شوند.

گفتگو