باید بدانید که لایههای امنیتی فعلی هوش مصنوعی، احتمالاً در برابر تهدیدات پنهان کاملاً بیدفاع هستند. تصور کنید مدلی که کلمات رکیک را بهسرعت شناسایی میکند، در برابر جملهای که بهطور غیرمستقیم تهدید به آسیب میزند، کاملاً ناتوان باشد؛ این دقیقاً همان نقطهکوری است که امنیت مدلهای زبانی را به مخاطره میاندازد.
به نقل از گزارش منتشر شده در arxiv.org در تاریخ ۱۲ مه ۲۰۲۶، بنچمارک جدیدی به نام ThreatCore معرفی شده است که برای نخستین بار تهدیدات «صریح» را از تهدیدات «پنهان» تفکیک میکند. تا پیش از این، صنعت هوش مصنوعی تشخیص تهدید را با دستههای گستردهتری مانند «سخنان نفرتانگیز» یا «زبان توهینآمیز» یکی میدانست. همانطور که در تحلیلهای پیشین ما دربارهی چالشهای همراستاسازی (Alignment) اشاره کردیم، این فقدان دقت باعث میشود ارزیابی کنیم که آیا مدل واقعاً «قصد آسیب» را میفهمد یا صرفاً بر اساس الگوهای سطحی، کلمات «بد» را علامتگذاری میکند.
طبق مستندات ThreatCore، این چارچوب با تجمیع منابع عمومی و بازنویسی آنها بر اساس یک تعریف عملیاتی واحد ساخته شده است. برای رفع کمبود دادههای مربوط به تهدیدات غیرمستقیم، تیم پژوهشی نمونههای مصنوعی تأییدشدهای را به مجموعه اضافه کردند. این بنچمارک سیستمهای زیر را مورد ارزیابی قرار داده است:
- Perspective API
- طبقهبندیکنندههای Zero-shot
- مدلهای زبانی بزرگ (Large Language Models - LLMs) جدید
پژوهشگران دریافتند که ادغام برچسبگذاری نقش معنایی (Semantic Role Labeling - SRL) بهعنوان یک نمایش میانی، تشخیص قصد مخرب را بهطور قابلتوجهی بهبود میبخشد؛ زیرا ساختار زیربنایی تهدید را صریحتر میکند.
این یافتهها فرضیات موجود در میدان ایمنی را تغییر میدهد و ثابت میکند که «سمیت» (Toxicity) ابزار بسیار کندی برای تامین امنیت است. با ایزوله کردن تهدیدات پنهان، ThreatCore توسعهدهندگان را مجبور میکند از «تطبیق الگو» فاصله بگیرند و به سمت درک ساختاری از قصد حرکت کنند. موفقیت SRL نشان میدهد که نسل بعدی نردههای حفاظتی باید منطق یک تهدید را «تجزیه» کنند، نه اینکه فقط به دنبال کلمات کلیدی بگردند.
گام بعدی شما
- اگر توسعهدهنده هستید، مجموعه دادههای ThreatCore را در arXiv بررسی کنید تا حساسیت مدل خود را در برابر تهدیدات غیرمستقیم بسنجید.
- بر نحوه ادغام تکنیکهای SRL در سیستمهای نظارت لحظهای (Real-time Moderation) نظارت کنید.
- استراتژیهای ایمنی خود را از فیلترینگ کلمات به تحلیل ساختاری قصد تغییر دهید.
اما این تنها بخشی از معماست؛ برای درک عمیقتر از حملات متخاصم (Adversarial Attacks)، گزارش ما دربارهی تکنیکهای Jailbreak را بخوانید.




گفتگو