گزارش arxiv.org: شکست کامل SafeLoRA در برابر استاندارد چهارگانه Acceptance Cards

باید بدانید که بسیاری از ادعاهای مربوط به ایمنی در مدل‌های زبانی، تنها توهمات آماری هستند و در دنیای واقعی کار نمی‌کنند. تصور کنید سیستمی را بسازید که در آزمایشگاه امن به نظر می‌رسد، اما به محض استقرار، تمام حفره‌های امنیتی‌اش فعال شود.

طبق گزارش منتشر شده در ۱۲ مه ۲۰۲۶ در وب‌سایت arxiv.org، پروتکل جدیدی به نام Acceptance Cards معرفی شده است که هدف آن افشای بهبودهای «جعلی» در تنظیم دقیق (Fine-tuning) مدل‌هاست. این چارچوب، تکیه صنعت بر کاهش شکاف در داده‌های تست (held-out gap reduction) را به عنوان معیاری برای ایمنی به چالش می‌کشد.

همان‌طور که در تحلیل‌های پیشین ما درباره‌ی همراستاسازی (Alignment) مدل‌های بازمتن اشاره کردیم، تضاد میان عملکرد آزمایشگاهی و محیط عملیاتی همواره یک نقطه ضعف کلیدی بوده است. توسعه‌دهندگان سال‌ها ادعا کرده‌اند که با کاهش خروجی‌های مضر در مجموعه‌های تست، مدل را «ایمن» کرده‌اند؛ اما این نتایج اغلب ناشی از نویز نمونه‌برداری (sampling noise) یا کاهش کلی توانایی مدل است، نه یک سازوکار دفاعی واقعی.

بر اساس مستندات این پژوهش، چارچوب Acceptance Cards چهار تشخیص اجباری را برای تأیید هرگونه ادعای دفاعی تعریف کرده است:

پایداری آماری (Statistical reliability)
تعمیم معنایی تازه (Fresh semantic generalization)
هم‌راستایی سازوکار (Mechanism alignment)
انتقال بین‌وظیفه‌ای (Cross-task transfer)

در یک بازرسی گسترده شامل ۴۶ سلول ارزیابی، هیچ‌یک از سلول‌ها نتوانستند ترکیب سخت‌گیرانه هر چهار تست را پاس کنند. به‌طور مشخص، هنگام آزمایش روی مدل Gemma-2-2B-it، متد SafeLoRA در تمامی چهار تشخیص تحت کدگذاری سخت‌گیرانه و در سه مورد از چهار تشخیص تحت بازبرچسب‌گذاری (relabeling) منعطف، شکست خورد.

این تحول، معیار موفقیت را از «آیا مدل روی این مجموعه تست کار می‌کند؟» به «آیا سازوکار دفاعی واقعاً منتقل می‌شود؟» تغییر می‌دهد. برای جامعه فنی، این بدان معناست که تنظیم دقیق ایمن بسیار شکننده‌تر از آن چیزی است که پیش‌تر تصور می‌شد.

گام بعدی شما

بسته ارزیابی اجرایی (executable audit package) این پژوهش را روی سایر متدهای دفاعی محبوب اجرا کنید تا ببینید آیا روند «نرخ موفقیت صفر» تکرار می‌شود یا خیر.
در یادداشت‌های انتشار مدل‌های جدید، بررسی کنید که آیا ارائه‌دهندگان مدل‌ها این چهار تشخیص را در کارت‌های ایمنی (Safety Cards) رسمی خود گنجانده‌اند یا خیر.

اما این شکست تنها بخشی از یک بحران بزرگ‌تر در ارزیابی‌های ایمنی است؛ در گزارش بعدی، اثر این رویکرد بر مدل‌های استدلالی را بررسی خواهیم کرد.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

پایداری آماری (Statistical reliability)
تعمیم معنایی تازه (Fresh semantic generalization)
هم‌راستایی سازوکار (Mechanism alignment)
انتقال بین‌وظیفه‌ای (Cross-task transfer)

گام بعدی شما

بسته ارزیابی اجرایی (executable audit package) این پژوهش را روی سایر متدهای دفاعی محبوب اجرا کنید تا ببینید آیا روند «نرخ موفقیت صفر» تکرار می‌شود یا خیر.
در یادداشت‌های انتشار مدل‌های جدید، بررسی کنید که آیا ارائه‌دهندگان مدل‌ها این چهار تشخیص را در کارت‌های ایمنی (Safety Cards) رسمی خود گنجانده‌اند یا خیر.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش arxiv.org: شکست کامل SafeLoRA در برابر استاندارد چهارگانه Acceptance Cards

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش arxiv.org: شکست کامل SafeLoRA در برابر استاندارد چهارگانه Acceptance Cards

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش arxiv.org: شکست کامل SafeLoRA در برابر استاندارد چهارگانه Acceptance Cards

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش arxiv.org: شکست کامل SafeLoRA در برابر استاندارد چهارگانه Acceptance Cards

گام بعدی شما

مقاله‌های مرتبطهمه ←

«تهدید امنیت ملی»؛ هشدار کشورهای G7 به انحصار مدل‌های آمریکایی

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

مدل‌ها و ابزارهای مرتبط

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران