دادههای حساس شما احتمالاً همین حالا در حال نشت به خطوط آموزش مدلها هستند، اما راهکار جدید دیگر نیازی به اتصال به ابر ندارد. تصور کنید ابزاری داشته باشید که پیش از خروج هر تکه داده از سیستم شما، تمام ردپاهای شناسایی شخصی را پاک کند، بدون اینکه ذرهای از حریم خصوصی شما به سرورهای خارجی ارسال شود.
در ۱۸ می ۲۰۲۴، شرکت OpenAI مدل Privacy Filter را تحت مجوز Apache 2.0 در Hugging Face منتشر کرد. به نقل از گزارش MarkTechPots، این ابزار یک سیستم طبقهبندی توکنهای دوجهته (Bidirectional token-classification) است که بهطور تخصصی برای پاکسازی دادهها در محیطهای محلی (On-premises) طراحی شده است.
این مدل ۸ دستهی حساس شامل شماره حسابها، آدرسهای خصوصی، ایمیلها، نام افراد، شماره تلفنها، URLها، تاریخها و «رمزها» (Secrets) را شناسایی میکند. بر اساس مستندات این شرکت، دستهی «رمزها» برای شکار رشتههای با آنتروپی بالا و فرمتهای اعتبارنامهای طراحی شده، هرچند ممکن است برخی فرمتهای بسیار جدید را شناسایی نکند.

دستاورد فنی این مدل در معماری ترکیب متخصصان پراکنده (Sparse Mixture-of-Experts یا MoE) نهفته است. در حالی که مدل در مجموع ۱.۵ میلیارد پارامتر دارد، اما در لحظهی استنتاج (Inference) تنها از ۵۰ میلیون پارامتر فعال استفاده میکند. این کاهش ۳۰ برابری در محاسبات فعال، اجازه میدهد مدل روی سختافارهای معمولی یا حتی مستقیماً در مرورگر وب اجرا شود.
مشخصات فنی کلیدی عبارتند از:
- ۸ بلوک ترنسفورمر pre-norm با عرض جریان باقیمانده ۶۴۰.
- استفاده از توجه پرسوجوی گروهی (GQA) و جاسازیهای موقعیتی دورانی (RoPE) برای پشتیبانی از پنجره بافت (Context window) ۱۲۸ هزار توکنی.
- خط لولهی آموزشی سهمرحلهای: پیشآموزش خودرگرسیونی، تبدیل معماری به توجه باندی دوجهته و پسآموزش نظارتشده.
برای تضمین دقت در حذف دادهها، این مدل بهجای روشهای ساده، از یک رمزگشای ویتربی (Viterbi decoder) با طرح برچسبگذاری BIOES (BIOES label scheme) استفاده میکند. این سیستم به مهندسان اجازه میدهد بدون نیاز به آموزش مجدد مدل، توازن بین دقت (Precision) و بازخوانی (Recall) را در زمان اجرا تنظیم کنند.
همانطور که در تحلیل قبلی ما دربارهی استراتژی OpenAI برای متنباز کردن ترمینالهای عاملمحور (Agentic Terminal) اشاره کردیم، این انتشار نشاندهندهی یک چرخش راهبردی است. هدف، تجهیز توسعهدهندگان به مدلهای کاربردی و سبک است تا نیاز به ارسال دادههای حساس به APIهای شخص ثالث بهطور کلی حذف شود.
گام بعدی شما
- مدل Privacy Filter را از Hugging Face دریافت کرده و روی دادههای محلی خود آزمایش کنید.
- پارامترهای بایاس انتقال (transition-bias) را برای بهینهسازی دقت و بازخوانی متناسب با دیتای خود تنظیم کنید.
- بررسی کنید که آیا فرمتهای خاص شناسههای سازمان شما توسط دستهی «secrets» شناسایی میشوند یا خیر.
اما این تنها بخشی از پازل است؛ تأثیر این مدل بر حاکمیت دادههای سازمانی را در گزارش بعدی بررسی خواهیم کرد.




گفتگو