توهم امنیت؛ چرا بنچمارک‌های AI در دنیای واقعی شکست می‌خورند؟

اگر هنوز برای اعتماد به یک مدل، تنها به جدول‌های رده‌بندی (Leaderboards) تکیه می‌کنید، در واقع در حال قمار روی امنیت سیستم خود هستید. تصور کنید مدلی را به دلیل امتیاز بالا در تست‌های صداقت انتخاب می‌کنید، اما به محض ادغام آن در یک سیستم زنده، تمام آن لایه‌های حفاظتی فرو می‌ریزند.

به نقل از مقاله‌ای که در ۷ مه ۲۰۲۶ در وب‌سایت arxiv.org منتشر شد، همراستاسازی (Alignment) در سطح استقرار را نمی‌توان صرفاً از طریق ارزیابی‌های سطح مدل استنباط کرد. نویسندگان استدلال می‌کنند که ادعاهای مربوط به امنیت باید بر اساس سطح شواهد — اعم از مدل، پاسخ، تعامل یا استقرار — سنجیده شوند، نه یک امتیاز کلی و توخالی.

برای اثبات این ادعا، محققان دو مطالعه‌ی کلیدی انجام دادند:

ممیزی ساختاریافته‌ی مجموعه‌ای از ۱۶ بنچمارک (Benchmark) شامل tau-bench، CURATe، Rifts و Common Ground؛ نتیجه این بود که پشتیبانی از تأییدیه در سطح کاربر در تمامی این بنچمارک‌ها کاملاً غایب است.
یک تست استرس کور (Blinded Stress Test) با استفاده از ۱۸۰ متن گفتگو در سه مدل پیشرو (Frontier Models) و چهار داربست امنیتی (Safety Scaffolds).

نتایج تکان‌دهنده بود: یک داربست تأییدیه خاص، عملکرد یک مدل را به سقف برد، در حالی که مدل دیگر را به‌طور کلی بدون تغییر رها کرد. این یعنی اثربخشی یک لایه‌ی امنیتی کاملاً به مدل وابسته است.

همان‌طور که در تحلیل قبلی ما درباره‌ی توهمات مدل‌های زبانی اشاره کردیم، شکاف بین محیط آزمایشگاهی و دنیای واقعی همیشه یک تهدید پنهان بوده است. اکنون مشخص شد که این شکاف در لایه‌های امنیتی عمیق‌تر است.

طبق اعلام محققان، برای حل این بحران باید امتیازات تک‌عددی را با «پروفایل‌های همراستاسازی» جایگزین کرد و پروتکل‌های داربست ثابت را برای ارزیابی تعاملی به کار گرفت. با شتاب گرفتن توسعه‌ی عامل‌های (Agents) خودمختار، فشار برای عبور از بنچمارک‌های ایستا به سمت ممیزی‌های پویا و سیستمی افزایش خواهد یافت.

اما این شکاف تنها بخشی از یک بحران بزرگ‌تر در ارزیابی مدل‌های استدلالی است — به بررسی ما درباره‌ی مدل‌های o1 مراجعه کنید.

گام بعدی شما

به جای تکیه بر امتیازات کلی، برای هر مدل پیشرو یک «پروفایل همراستاسازی» اختصاصی تعریف کنید.
لایه‌های امنیتی (Scaffolds) خود را به‌طور مجزا برای هر مدل تست کنید و فرض نکنید یک لایه برای همه کار می‌کند.
متدولوژی ارزیابی خود را از «پاسخ-محور» به «تعامل-محور» تغییر دهید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

برای اثبات این ادعا، محققان دو مطالعه‌ی کلیدی انجام دادند:

ممیزی ساختاریافته‌ی مجموعه‌ای از ۱۶ بنچمارک (Benchmark) شامل tau-bench، CURATe، Rifts و Common Ground؛ نتیجه این بود که پشتیبانی از تأییدیه در سطح کاربر در تمامی این بنچمارک‌ها کاملاً غایب است.
یک تست استرس کور (Blinded Stress Test) با استفاده از ۱۸۰ متن گفتگو در سه مدل پیشرو (Frontier Models) و چهار داربست امنیتی (Safety Scaffolds).

گام بعدی شما

به جای تکیه بر امتیازات کلی، برای هر مدل پیشرو یک «پروفایل همراستاسازی» اختصاصی تعریف کنید.
لایه‌های امنیتی (Scaffolds) خود را به‌طور مجزا برای هر مدل تست کنید و فرض نکنید یک لایه برای همه کار می‌کند.
متدولوژی ارزیابی خود را از «پاسخ-محور» به «تعامل-محور» تغییر دهید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

توهم امنیت؛ چرا بنچمارک‌های AI در دنیای واقعی شکست می‌خورند؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

توهم امنیت؛ چرا بنچمارک‌های AI در دنیای واقعی شکست می‌خورند؟

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

توهم امنیت؛ چرا بنچمارک‌های AI در دنیای واقعی شکست می‌خورند؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

توهم امنیت؛ چرا بنچمارک‌های AI در دنیای واقعی شکست می‌خورند؟

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران