اگر تصور میکنید انتشار بردار معنایی (embedding) مدلهای EEG امن است، باید بدانید که این فرض با یک واقعیت فنی خطرناک روبروست. این آسیبپذیری به این معناست که انتشار مدلهای پیشآموزه — که مدتها به عنوان یک نقطه امن میانی شناخته میشدند — میتواند دادههای حساس کاربران را در برابر مهاجمان پیشرفته افشا کند.
در حالی که مدلهای بنیادی EEG به سمت کاربردهای گسترده کلینیکی و مصرفکننده حرکت میکنند، صنعت بر بازرسیهای تکنقطهای برای تأیید حریم خصوصی تکیه کرده است. این بررسیها معمولاً بر بازسازی خام یا استنتاج عضویت به صورت مجزا تمرکز دارند. همانطور که در تحلیلهای پیشین ما دربارهی امنیت مدلهای بازمتن اشاره کردیم، نقصهای پنهان اغلب در نقاط کور ارزیابیها قرار دارند. طبق گزارشی که در ۹ ژوئن ۲۰۲۶ منتشر شد، این دفاعهای تکهتکه با نادیده گرفتن نشتهای رابطهای بین معماریهای مختلف مدل، حس کاذبی از امنیت ایجاد میکنند.
پژوهشگران با بازرسی بردارهای معنایی مدلهای BIOT، LaBraM و EEGPT، یک روش بازرسی انتقال متقاطع-رمزگذار (cross-encoder transfer audit) را توسعه دادند. این متد از یک پل خطی برای انتقال یک رمزگشای ویژگی ریج (ridge attribute decoder) از یک رمزگذار منجمد به دیگری استفاده میکند. نتایج به نقل از این مطالعه قاطع بود:
- کرانههای پایین CI ۹۵٪ در حالتهای کنترل-تطبیقی مجزا از سوژه، در تمامی ۶ جهت BIOT/LaBraM/EEGPT حداقل ۰.۰۸۱ باقی ماندند.
- امتیاز عدم توافق نقطه-بازرسی (AEDS) در تمامی ۸ سلول تطبیقی با p < ۰.۰۰۱ مثبت بود.
- دفاعهای استاندارد شکست خوردند: DP-SGD در مقادیر اپسیلون ۴ و ۸، و همچنین بازرسیهای عضویت Carlini LiRA (که تنها به AUC ۰.۵۰-۰.۷۰ رسیدند)، کانال ویژگیها را اساساً بدون تغییر باقی گذاشتند.
این یافتهها بهطور بنیادی فرضیات میدان دربارهی امنیت بردارهای «منجمد» را تغییر میدهد. این موضوع ثابت میکند که حریم خصوصی را نمیتوان تنها با بازرسی سرهای پاییندستی تأیید کرد؛ بلکه یک چارچوب تصمیمگیری انتشار مشترک برای شناسایی نشتهای هماهنگ بین رمزگذارها ضروری است. اگر مدلی از تست عضویت عبور کند اما در تست پل متقاطع-رمزگذار شکست بخورد، انتشار آن باید متوقف شود.
گام بعدی شما
- جایگزینی بازرسیهای تکنقطهای سنتی با چارچوب AEDS برای ارزیابی دقیقتر نشت دادهها.
- بررسی امکان پاکسازی ویژگیهای طیفی بدون تخریب کاربرد مدلهای بنیادی EEG.
- بازنگری در سیاستهای انتشار بردارهای معنایی در پروژههای دادههای زیستی.
اما این آسیبپذیری تنها بخشی از یک بحران بزرگتر در حریم خصوصی دادههای زیستی است — به بررسی ما دربارهی رمزنگاری همومورفیک در دادههای پزشکی مراجعه کنید.
گفتگو