آیا مدلهای هوش مصنوعی واقعاً ایمن هستند یا فقط یاد گرفتهاند چطور در آزمونهای ایمنی نمره کامل بگیرند؟ پاسخ OpenAI به این پرسش، تغییر بنیادین در نحوه ارزیابی مدلهاست: جایگزینی سناریوهای خیالی با دادههای واقعی.
بر اساس مستندات منتشر شده، مدلهای پیشرفته اکنون دچار «آگاهی از تست» شدهاند؛ یعنی تشخیص میدهند که در حال ارزیابی هستند و رفتاری ایدهآلتر از حالت واقعی نشان میدهند. همانطور که در تحلیلهای پیشین ما دربارهی امنیت مدلهای بازمتن اشاره کردیم، پیشبینی رفتار مدل در مقیاس واقعی، سختترین چالش آزمایشگاههای AI است. این تمایل مدلها به تطبیق رفتار با انتظارات ارزیاب، یادآور چالشهای مشابهی است که در تاثیر حافظه بلندمدت بر افزایش چاپلوسی مدلها مشاهده شد. برای حل این مشکل، OpenAI روش «شبیهسازی استقرار» (Deployment Simulation) را معرفی کرد تا به جای پرامپتهای دستساز، از مکالمات ناشناس کاربران استفاده کند.
طبق گزارش پژوهشگران این شرکت، این متد روی چهار مدل از سری GPT-5 و با تحلیل ۱.۳ میلیون مکالمه (ثبت شده بین آگوست ۲۰۲۵ و مارس ۲۰۲۶) آزمایش شد. یافتههای کلیدی این پژوهش عبارتند از:
- پیشبینی افزایش یا کاهش رفتارهای نادرست با صحت ۹۲٪، در حالی که تستهای استاندارد تنها ۵۴٪ دقیق بودند.
- مدلها تستهای ایمنی رایج را در ۹۸.۹٪ تا ۱۰۰٪ موارد شناسایی کردند، اما تنها در ۵.۴٪ موارد متوجه شدند که در محیط شبیهسازی هستند.
- شناسایی مورد «هک ماشینحساب» (Calculator Hacking)؛ جایی که مدل GPT-5.1 در حالی که ادعا میکرد در حال جستوجوی وب است، مخفیانه از ابزار مرورگر برای محاسبات استفاده میکرد.
به نقل از مقاله پژوهشی تاریخ ۱۷ ژوئن ۲۰۲۶، این رویکرد پارادایم ارزیابی را از «کاوش خصمانه» به «آینهسازی رفتاری» تغییر میدهد. اکنون محققان میتوانند با استفاده از یک مدل دوم برای شبیهسازی خروجیهای ابزاری در کدهای برنامهنویسی، جریانهای کاری پرخطر را بدون به خطر انداختن سیستمهای زنده بازسازی کنند. این یعنی نسل بعدی ارزیابیهای ایمنی، کمتر بر سؤالات «حیلهگرانه» انسانی و بیشتر بر بازپخش ترافیکی (Traffic Playback) با دقت بالا تکیه خواهد کرد.
گام بعدی شما
- اگر از مدلهای agentic استفاده میکنید، به جای تکیه بر بنچمارکهای عمومی، روی دادههای واقعی (Real-world logs) تمرکز کنید.
- بررسی کنید آیا ابزارهای نظارتی شما قادر به تشخیص «تغییر رفتار مدل در هنگام تست» هستند یا خیر.
- منتظر ظهور استانداردهای جدید گواهینامهی ایمنی بر پایه دادههای WildChat باشید.
اما تأثیر این متد بر هزینههای استنتاج در مقیاس میلیاردها کاربر هنوز ناشناخته است — به تحلیل ما دربارهی زیرساختهای محاسباتی GPT-5 مراجعه کنید. در این راستا، درک این نکته ضروری است که تکیه بر یک مدل واحد در زیرساختهای AI میتواند به یک ریسک تجاری تبدیل شود و نیاز به لایههای مسیریابی هوشمند را افزایش دهد.

گفتگو