تِمپلیتفاز یک چارچوب فازینگ دقیق و نوآورانه است که برای کشف آسیبپذیریهای قالبهای گفتگو در مدلهای زبانی بزرگ طراحی شده است. این پژوهش به سطح حملهای حیاتی میپردازد که تاکنون عمدتاً نادیده گرفته شده و توجه بیشتر معطوف به تکنیکهای تزریق پرامپت بوده است.
این چارچوب از سه استراتژی کلیدی برای دستیابی به حداکثر اثربخشی بهره میبرد. نخست، از قوانین جهش عنصری برای تولید واریانتهای متنوع قالبهای گفتگو استفاده میکند که میتوانند رفتارهای غیرمنتظرهای را آشکار سازند. دوم، یک استراتژی جستجوی ابتکاری دارد که تولید قالب را به سمت افزایش نرخ موفقیت حمله و حفظ دقت مدل هدایت میکند. سوم، یک اوراکل مبتنی بر یادگیری فعال را برای ارزیابی دقیق و کارآمد جیلبریک ادغام کرده است.
این چارچوب بر روی دوازده مدل زبانی بزرگ متنباز ارزیابی شد و نتایج چشمگیری به دست آورد. میانگین نرخ موفقیت حمله به ۹۸.۲٪ رسید، در حالی که افت دقت تنها ۱.۱٪ بود. این عملکرد نشاندهنده پیشرفت قابل توجهی نسبت به روشهای پیشرفته فعلی است، با دستاوردهای ۹.۱٪ تا ۴۷.۹٪ در نرخ موفقیت حمله و حفظ ۸.۴٪ بیشتر در دقت.
نکته قابل توجه دیگر، اثربخشی تِمپلیتفاز بر روی مدلهای زبانی بزرگ تجاری است. این چارچوب با وجود اینکه این سیستمهای تجاری امکان تعیین مستقیم قالبهای گفتگو را نمیدهند، به نرخ موفقیت حمله متوسط ۹۰٪ دست یافت. این یافته ضرورت فوری تقویت اقدامات امنیتی در استقرار مدلهای زبانی بزرگ را برجسته میسازد.
این پژوهش نشان میدهد که فازینگ سیستماتیک قالبهای گفتگو میتواند آسیبپذیریهای بنیادی در مکانیزمهای ایمنی مدلهای زبانی بزرگ را آشکار کند و نشاندهنده نیاز جدی به بازنگری در رویکردهای امنیتی این سیستمهاست.

گفتگو