تصور کنید تمام دادههای حساس سازمان شما تنها به دلیل یک اشتباه در تکهتکه کردن متن، لو برود. اگر هنوز از ابزارهای قدیمی برای حذف اطلاعات شخصی استفاده میکنید، در واقع در حال پذیرش یک ریسک امنیتی بزرگ هستید.
در ۲۷ آوریل ۲۰۲۶، شرکت OpenAI مدل Privacy Filter را در پلتفرم Hugging Face منتشر کرد. به نقل از مستندات Hugging Face، این مدل یک مدل زبانی کوچک (Small Language Model - SLM) با ۱.۵ میلیارد پارامتر است که میتواند اطلاعات شناسایی شخصی یا PII (Personally Identifiable Information) را در یک پنجرهی عظیم ۱۲۸,۰۰۰ توکنی شناسایی و حذف کند.

طبق اعلام OpenAI، این مدل در یک گذر پیشرو (Forward Pass) واحد، قادر است ۸ دستهی مختلف از دادههای حساس را برچسبگذاری کند. این دستهها عبارتند از:
- اطلاعات شخصی: شامل نام، آدرس، ایمیل و شماره تلفن
- دادههای دیجیتال: لینکهای خصوصی و تاریخها
- دادههای مالی و امنیتی: شماره حسابها و کلیدهای سری (Secret Keys)
از نظر فنی، این مدل با ۵۰ میلیون پارامتر فعال بهینهسازی شده و تحت لایسنس Apache 2.0 عرضه شده است. همچنین در بنچمارک PII-Masking-300k نتایجی در سطح SOTA (State-of-the-Art) به دست آورده است.
همانطور که در تحلیل قبلی ما دربارهی چرخش راهبردی OpenAI و پایان انحصار مایکروسافت اشاره کردیم، این حرکت نشاندهندهی تمایل این شرکت به ادغام مدلهای تخصصی در جریان کاری محلی توسعهدهندگان است. به جای حبس کردن این قابلیتها پشت یک API تجاری، آنها اکنون ابزارهایی مانند Document Privacy Explorer را بر بستر gradio.Server ارائه دادهاند تا کاربران بتوانند بدون نیاز به خرد کردن فایلهای PDF و DOCX، دادههای حساس را شناسایی کنند.

علاوه بر این، ابزاری به نام Image Anonymizer با ترکیب Tesseract OCR و این فیلتر، امکان قرار دادن نوارهای سیاه روی اسکرینشاتها را فراهم میکند. این رویکرد، هوش مصنوعی زاینده (Generative AI) را از یک ابزار تولید محتوا به یک ابزار نظارتی دقیق تبدیل میکند.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی بهینهسازی استنتاج (Inference) در لبه مراجعه کنید.
گام بعدی شما
- اگر با دادههای حساس سر و کار دارید، مدل Privacy Filter را از Hugging Face دریافت و روی دادههای خود آزمایش کنید.
- برای اتوماسیون حذف دادهها در اسناد حجیم، ترکیب این مدل با gradio.Server را پیادهسازی کنید.
- عملکرد این مدل را با ابزارهای سنتی Regex-based مقایسه کنید تا تفاوت در شناسایی الگوهای پیچیده را ببینید.




گفتگو