بنچمارک CVE-Bench: نرخ موفقیت GPT-5.5 در رفع آسیبپذیریهای امنیتی ۵۰٪ است
مدلهای پیشرو همچنان در رفع نیمی از آسیبپذیریهای امنیتی واقعی ناتواناند. بنچمارک CVE-Bench نشان میدهد که «استدلال امنیتی» در این مدلها بیشتر شبیه به تطبیق الگو است تا تحلیل…