ThreatCore: چرا تشخیص «قصد آسیب» دشوارتر از شناسایی کلمات رکیک است؟

باید بدانید که لایه‌های امنیتی فعلی هوش مصنوعی، احتمالاً در برابر تهدیدات پنهان کاملاً بی‌دفاع هستند. تصور کنید مدلی که کلمات رکیک را به‌سرعت شناسایی می‌کند، در برابر جمله‌ای که به‌طور غیرمستقیم تهدید به آسیب می‌زند، کاملاً ناتوان باشد؛ این دقیقاً همان نقطه‌کوری است که امنیت مدل‌های زبانی را به مخاطره می‌اندازد.

به نقل از گزارش منتشر شده در arxiv.org در تاریخ ۱۲ مه ۲۰۲۶، بنچمارک جدیدی به نام ThreatCore معرفی شده است که برای نخستین بار تهدیدات «صریح» را از تهدیدات «پنهان» تفکیک می‌کند. تا پیش از این، صنعت هوش مصنوعی تشخیص تهدید را با دسته‌های گسترده‌تری مانند «سخنان نفرت‌انگیز» یا «زبان توهین‌آمیز» یکی می‌دانست. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی چالش‌های همراستاسازی (Alignment) اشاره کردیم، این فقدان دقت باعث می‌شود ارزیابی کنیم که آیا مدل واقعاً «قصد آسیب» را می‌فهمد یا صرفاً بر اساس الگوهای سطحی، کلمات «بد» را علامت‌گذاری می‌کند.

طبق مستندات ThreatCore، این چارچوب با تجمیع منابع عمومی و بازنویسی آن‌ها بر اساس یک تعریف عملیاتی واحد ساخته شده است. برای رفع کمبود داده‌های مربوط به تهدیدات غیرمستقیم، تیم پژوهشی نمونه‌های مصنوعی تأییدشده‌ای را به مجموعه اضافه کردند. این بنچمارک سیستم‌های زیر را مورد ارزیابی قرار داده است:

Perspective API
طبقه‌بندی‌کننده‌های Zero-shot
مدل‌های زبانی بزرگ (Large Language Models - LLMs) جدید

پژوهشگران دریافتند که ادغام برچسب‌گذاری نقش معنایی (Semantic Role Labeling - SRL) به‌عنوان یک نمایش میانی، تشخیص قصد مخرب را به‌طور قابل‌توجهی بهبود می‌بخشد؛ زیرا ساختار زیربنایی تهدید را صریح‌تر می‌کند.

این یافته‌ها فرضیات موجود در میدان ایمنی را تغییر می‌دهد و ثابت می‌کند که «سمیت» (Toxicity) ابزار بسیار کندی برای تامین امنیت است. با ایزوله کردن تهدیدات پنهان، ThreatCore توسعه‌دهندگان را مجبور می‌کند از «تطبیق الگو» فاصله بگیرند و به سمت درک ساختاری از قصد حرکت کنند. موفقیت SRL نشان می‌دهد که نسل بعدی نرده‌های حفاظتی باید منطق یک تهدید را «تجزیه» کنند، نه اینکه فقط به دنبال کلمات کلیدی بگردند.

گام بعدی شما

اگر توسعه‌دهنده هستید، مجموعه داده‌های ThreatCore را در arXiv بررسی کنید تا حساسیت مدل خود را در برابر تهدیدات غیرمستقیم بسنجید.
بر نحوه ادغام تکنیک‌های SRL در سیستم‌های نظارت لحظه‌ای (Real-time Moderation) نظارت کنید.
استراتژی‌های ایمنی خود را از فیلترینگ کلمات به تحلیل ساختاری قصد تغییر دهید.

اما این تنها بخشی از معماست؛ برای درک عمیق‌تر از حملات متخاصم (Adversarial Attacks)، گزارش ما درباره‌ی تکنیک‌های Jailbreak را بخوانید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

Perspective API
طبقه‌بندی‌کننده‌های Zero-shot
مدل‌های زبانی بزرگ (Large Language Models - LLMs) جدید

گام بعدی شما

اگر توسعه‌دهنده هستید، مجموعه داده‌های ThreatCore را در arXiv بررسی کنید تا حساسیت مدل خود را در برابر تهدیدات غیرمستقیم بسنجید.
بر نحوه ادغام تکنیک‌های SRL در سیستم‌های نظارت لحظه‌ای (Real-time Moderation) نظارت کنید.
استراتژی‌های ایمنی خود را از فیلترینگ کلمات به تحلیل ساختاری قصد تغییر دهید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ThreatCore: چرا تشخیص «قصد آسیب» دشوارتر از شناسایی کلمات رکیک است؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ThreatCore: چرا تشخیص «قصد آسیب» دشوارتر از شناسایی کلمات رکیک است؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ThreatCore: چرا تشخیص «قصد آسیب» دشوارتر از شناسایی کلمات رکیک است؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

ThreatCore: چرا تشخیص «قصد آسیب» دشوارتر از شناسایی کلمات رکیک است؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران