باید بدانید که بسیاری از ادعاهای مربوط به ایمنی در مدلهای زبانی، تنها توهمات آماری هستند و در دنیای واقعی کار نمیکنند. تصور کنید سیستمی را بسازید که در آزمایشگاه امن به نظر میرسد، اما به محض استقرار، تمام حفرههای امنیتیاش فعال شود.
طبق گزارش منتشر شده در ۱۲ مه ۲۰۲۶ در وبسایت arxiv.org، پروتکل جدیدی به نام Acceptance Cards معرفی شده است که هدف آن افشای بهبودهای «جعلی» در تنظیم دقیق (Fine-tuning) مدلهاست. این چارچوب، تکیه صنعت بر کاهش شکاف در دادههای تست (held-out gap reduction) را به عنوان معیاری برای ایمنی به چالش میکشد.
همانطور که در تحلیلهای پیشین ما دربارهی همراستاسازی (Alignment) مدلهای بازمتن اشاره کردیم، تضاد میان عملکرد آزمایشگاهی و محیط عملیاتی همواره یک نقطه ضعف کلیدی بوده است. توسعهدهندگان سالها ادعا کردهاند که با کاهش خروجیهای مضر در مجموعههای تست، مدل را «ایمن» کردهاند؛ اما این نتایج اغلب ناشی از نویز نمونهبرداری (sampling noise) یا کاهش کلی توانایی مدل است، نه یک سازوکار دفاعی واقعی.
بر اساس مستندات این پژوهش، چارچوب Acceptance Cards چهار تشخیص اجباری را برای تأیید هرگونه ادعای دفاعی تعریف کرده است:
- پایداری آماری (Statistical reliability)
- تعمیم معنایی تازه (Fresh semantic generalization)
- همراستایی سازوکار (Mechanism alignment)
- انتقال بینوظیفهای (Cross-task transfer)
در یک بازرسی گسترده شامل ۴۶ سلول ارزیابی، هیچیک از سلولها نتوانستند ترکیب سختگیرانه هر چهار تست را پاس کنند. بهطور مشخص، هنگام آزمایش روی مدل Gemma-2-2B-it، متد SafeLoRA در تمامی چهار تشخیص تحت کدگذاری سختگیرانه و در سه مورد از چهار تشخیص تحت بازبرچسبگذاری (relabeling) منعطف، شکست خورد.
این تحول، معیار موفقیت را از «آیا مدل روی این مجموعه تست کار میکند؟» به «آیا سازوکار دفاعی واقعاً منتقل میشود؟» تغییر میدهد. برای جامعه فنی، این بدان معناست که تنظیم دقیق ایمن بسیار شکنندهتر از آن چیزی است که پیشتر تصور میشد.
گام بعدی شما
- بسته ارزیابی اجرایی (executable audit package) این پژوهش را روی سایر متدهای دفاعی محبوب اجرا کنید تا ببینید آیا روند «نرخ موفقیت صفر» تکرار میشود یا خیر.
- در یادداشتهای انتشار مدلهای جدید، بررسی کنید که آیا ارائهدهندگان مدلها این چهار تشخیص را در کارتهای ایمنی (Safety Cards) رسمی خود گنجاندهاند یا خیر.
اما این شکست تنها بخشی از یک بحران بزرگتر در ارزیابیهای ایمنی است؛ در گزارش بعدی، اثر این رویکرد بر مدلهای استدلالی را بررسی خواهیم کرد.




گفتگو