ماسک‌گذاری محلی PII: سد دفاعی نوین مقابل نشت داده‌ها در چت‌های AI

تصور کنید تحلیلگری مالی برای تطبیق ارقام، صورت‌حساب بانکی را در پنجره چت کپی می‌کند تا مجموع را بررسی کند. یا کارشناس پشتیبانی برای پیش‌نویس یک پاسخ، ایمیل کامل مشتری را کپی می‌کند. یا مدیری پیش از یک جلسه، بخشی از صورت‌حساب بانکی را برای مدل می‌چسباند. در هر یک از این سناریوها، پرامپت حاوی نام‌ها، شماره‌های IBAN و شناسه‌هایی است که هوش مصنوعی برای انجام تکالیفش اصلاً به آن‌ها نیاز ندارد.

این عادت در می ۲۰۲۳ منجر به یک آسیب‌پذیری بحرانی شد؛ طبق گزارش بلومبرگ، کارکنان سامسونگ (Samsung) کدهای منبع داخلی (source code) را در ChatGPT آپلود کردند که در نهایت منجر به ممنوعیت سراسری این ابزار در کل شرکت شد. اکنون این ریسک مقیاس‌یافته است. طبق گزارش سال ۲۰۲۶ از نت‌اسکوپ (Netskope)، سازمان‌ها به‌طور میانگین ماهانه ۲۲۳ تلاش از سوی کارکنان برای گنجاندن داده‌های حساس در پرامپت‌ها یا آپلودهای هوش مصنوعی مولد شناسایی می‌کنند. این داده‌ها طیف گسترده‌ای از داده‌های تنظیم‌شده (regulated data)، مالکیت معنوی، کدهای منبع و اعتبارنامه‌ها (credentials) را شامل می‌شوند. همان گزارش نشان داد که تخلفات مربوط به سیاست‌های داده در هوش مصنوعی مولد (genAI)، سال به سال بیش از دو برابر شده است.

بسیاری از کارکنان از هر حسابی که در مرورگر فعال است استفاده می‌کنند. در طرح‌های مصرف‌کننده ChatGPT، Claude و Gemini، تنظیمات پیش‌فرض اغلب اجازه می‌دهد ارائه‌دهندگان از گفتگوها برای آموزش مدل استفاده کنند. جزئیات این موضوع بسته به ارائه‌دهنده متفاوت است:

OpenAI (ChatGPT): طبق بخش پرسش و پاسخ کنترل‌های داده (Data Controls FAQ)، گفتگوهای طرح‌های رایگان (Free)، پلاس (Plus) و پرو (Pro) ممکن است برای آموزش مدل‌ها استفاده شوند، مگر اینکه کاربر به‌طور دستی این تنظیم را خاموش کند. داده‌های مربوط به طرح‌های تجاری (Business)، سازمانی (Enterprise) و آموزشی (Education) به‌طور پیش‌فرض از آموزش مستثنی هستند.
Anthropic (Claude): از ۲۸ سپتامبر ۲۰۲۵، حساب‌های رایگان، پرو و مکس به‌طور پیش‌فرض اجازه می‌دهند چت‌ها در آموزش شرکت کنند و زمان نگهداری این داده‌ها تا زمانی که تنظیمات فعال باشد، به پنج سال افزایش یافته است. ترافیک مربوط به Claude for Work، بخش‌های دولتی، آموزشی و API از این مورد مستثنی هستند.
Google (Gemini): در صورتی که «فعالیت‌های اپلیکیشن جمینای» (Gemini Apps Activity) روشن باشد (که حالت پیش‌فرض است)، زیرمجموعه‌ای از گفتگوها ممکن است توسط بازبین‌های انسانی خوانده شود و تا سه سال نگهداری گردد. گوگل در اطلاعیه حریم خصوصی خود صراحتاً هشدار می‌دهد که کاربران نباید اطلاعات محرمانه‌ای را وارد کنند که نمی‌خواهند یک بازبین انسانی آن را ببیند.

در حالی که سطوح تجاری معمولاً داده‌ها را از آموزش مستثنی می‌کنند، اما سیاست‌های شرکتی نمی‌توانند ردیابی کنند که یک کارمند در ساعت ۶ عصر، هنگام فشار برای رسیدن به ضرب‌الاجل (deadline)، از کدام حساب استفاده می‌کند.

هزینه هوش مصنوعی سایه (Shadow AI)

این شکاف بین سیاست‌های شرکتی و رفتار واقعی کاربران، موتور محرک پدیده «هوش مصنوعی سایه» (Shadow AI) است؛ یعنی استفاده از ابزارهای AI خارج از تاییدیه بخش IT. گزارش ۲۰۲۵ شرکت IBM درباره هزینه نشت داده‌ها (Cost of a Data Breach Report) نشان داد که از هر پنج سازمان، یک مورد دچار نشت داده از طریق این ابزارهای تایید نشده شده است.

شرکت‌هایی که سطوح بالای هوش مصنوعی سایه داشتند، شاهد افزایش هزینه‌های نشت داده به‌طور میانگین ۶۷۰,۰۰۰ دلار بودند. علاوه بر این، ۶۵٪ از این حوادث منجر به به خطر افتادن اطلاعات شناسایی شخصی (PII) مشتریان شد که به‌طور قابل‌توجهی بالاتر از میانگین جهانی (۵۳٪) است.

سازوکار: ماسک‌گذاری محلی PII

ماسک‌گذاری PII (Personally Identifiable Information) — شبیه به یک فیلتر محلی بین متن مبدأ و پرامپت هوش مصنوعی عمل می‌کند. این سازوکار مقادیر حساس را شناسایی کرده و آن‌ها را با جایگاه‌داران (placeholders) پایداری مانند [PERSON_1] یا [EMAIL_1] جایگزین می‌کند. شماره‌گذاری یکسان باعث می‌شود مدل روابط را بفهمد؛ اگر یک مشتری سه بار در متن تکرار شود، هر سه بار [PERSON_1] می‌ماند تا مدل بتواند بدون دانستن هویت واقعی، ردیابی کند که چه کسی چه کسی است.

کارمندی در حال تایپ در لپ‌تاپ، با آیکون‌های محافظت از داده‌های شخصی روی صفحه

این فرآیند باید به‌صورت محلی در مرورگر رخ دهد. اگر ابزار ماسک‌گذاری متن خام را برای پاکسازی به سرور شخص ثالث بفرستد، خودِ ابزار به یک نقطه شکست (single point of failure) جدید تبدیل می‌شود. پردازش روی دستگاه تضمین می‌کند که شناسه‌های خام هرگز از کنترل مستقیم کاربر خارج نشوند. پردازش محلی همچنین پارادوکس این موضوع را حل می‌کند که آیا ابزاری که از داده‌های شما محافظت می‌کند، خودش از آن داده‌ها محافظت می‌کند یا خیر.

تشخیص داده‌های حساس معمولاً در دو دسته قرار می‌گیرد:

شناسه‌های ساختارمند (Structured Identifiers): این‌ها از فرمت‌های دقیق و قطعی پیروی می‌کنند.
- شماره‌های کارت پرداخت: معمولاً ۱۳ تا ۱۹ رقم هستند و از طریق «چک‌دایجت لون» (Luhn check digit) تایید می‌شوند.
- IBANها: با یک کد دو حرفی کشور شروع می‌شوند و تحت مجموع چک‌سام mod-97 تعریف شده در استاندارد ISO 13616 تایید می‌گردند.
- شناسه‌های امارات (Emirates IDs): توالی‌های ۱۵ رقمی که با ۷۸۴ (کد کشور امارات) شروع شده و به دنبال آن سال تولد دارنده، یک شماره سریال و یک رقم چک‌سام می‌آید.
- ایمیل‌ها و شماره تلفن‌ها: از فرمت‌های شناخته شده و مبتنی بر الگو (pattern-based) پیروی می‌کنند. در همین راستا، ابزارهای پیشرفته‌ای نظیر Verifly برای مدیریت ایمیل‌ها در عامل‌های هوشمند طراحی شده‌اند تا صحت داده‌ها و تحویل‌پذیری آن‌ها را در سیستم‌های اتوماسیون تضمین کنند.
موجودات غیرساختارمند (Unstructured Entities): نام افراد، نام شرکت‌ها، آدرس‌های خیابان و عناوین پروژه‌ها هیچ چک‌سام یا فرمت ثابتی ندارند. تشخیص آن‌ها بر اساس حروف بزرگ، کلمات زمینه‌ای (Context words) و لیست‌های نام‌های شناخته شده است. چون این روش ممکن است نام‌هایی با املای غیرمعمول را نادیده بگیرد یا نام محصولات را به اشتباه شناسایی کند، مرحله «بازبینی دستی» (manual review) الزامی است.

چه چیزی را ماسک کنیم و چه چیزی را نگه داریم؟

ماسک‌گذاری همه‌چیز باعث می‌شود هوش مصنوعی بی‌فایده شود. اگر هر عدد و تاریخی را حذف کنید، مدل نمی‌تواند درباره تکلیف استدلال کند و پاسخ‌های کلی و عمومی (generic) می‌دهد. کلید کار، حفظ مقادیری است که تکلیف به آن‌ها وابسته است و حذف شناسه‌هاست. یک تست ساده: آیا هوش مصنوعی می‌تواند بدون این مقدار خاص، به سوال کاری پاسخ دهد؟

نگه داشتن (Visible)	مثال	دلیل کمک به مدل
مبالغ	۱۸,۵۰۰ درهم یا ۱۲۵,۷۵۰ دلار	اجازه استدلال درباره اندازه پرداخت، آستانه‌ها و نحوه بیان
تاریخ‌ها	۱۴ ژوئن یا سه ماهه سوم ۲۰۲۶	ضروری برای پیش‌نویس خطوط زمانی و ضرب‌الاجل‌ها
نقش‌های کلی	مشتری، فروشنده، کارمند	حفظ زمینه تجاری بدون افشای هویت
دسته‌بندی مشکل	درخواست استرداد وجه، فاکتور گمشده	کمک به مدل برای انتخاب نوع پاسخ مناسب
ساختار سند	ردیف‌های جدول، نقاط گلوله‌ای (bullets)	حفظ شکل و ساختار مطالب مبدأ
قوانین غیرحساس	تاییدیه برای مبالغ بالای ۵۰,۰۰۰ درهم نیاز است	اجازه می‌دهد مدل دستورات داخلی را اعمال کند

گردش‌کار ۵ مرحله‌ای مرورگر

کارمندی در حال تایپ در لپ‌تاپ، با آیکون‌های محافظت از اطلاعات شخصی روی صفحه

یک گردش‌کار ماسک‌گذاری حرفه‌ای، مانند آنچه در Privacy Mask توسط Paperwork اجرا می‌شود، از یک حلقه دقیق پیروی می‌کند:

۱. کپی (Copy): کاربر متن خام کاری را برمی‌دارد. مثال: «سلام سارا، لطفاً استرداد مبلغ ۴,۲۰۰ درهم برای راشد المری، کارت به شماره پایان ۴۸۲۱، حساب REF-88213 را تایید کن. قبل از ۱۴ ژوئن با او به ایمیل [email protected] تماس بگیر.»
۲. تشخیص (Detect): یک افزونه متن را به‌صورت محلی اسکن می‌کند. در این مثال، افزونه دو نام، یک ایمیل، بخشی از یک کارت و یک رفرنس حساب را می‌یابد.
۳. بازبینی (Review): کاربر ماسک را تایید می‌کند. او مطمئن می‌شود که مبلغ (۴,۲۰۰ درهم) و ضرب‌الاجل (۱۴ ژوئن) باقی بمانند، در حالی که هویت‌ها پنهان شوند.
۴. چسباندن (Paste): پرامپت ماسک‌شده («سلام [PERSON_2]، لطفاً استرداد مبلغ ۴,۲۰۰ درهم برای [PERSON_1]، کارت [CARD_1]، حساب [ACCT_REF_1] را تایید کن...») به هوش مصنوعی ارسال می‌شود.
۵. کشف (Reveal): کاربر نقشه‌ی محلی (local mapping) را در مرورگر باز می‌کند تا پاسخ هوش مصنوعی را دوباره به مشتری واقعی و جزئیات تماس مرتبط کند.

کاربردهای تخصصی هر بخش

مالیات و پرداخت‌ها:
برای تیم‌های مالی، ماسک‌گذاری برای رعایت استاندارد PCI DSS یک ضرورت است. کپی کردن یک شماره حساب اصلی (PAN) در یک پرامپت عمومی، تقریباً تمام کنترل‌های تعریف شده در این استاندارد را نقض می‌کند.

باید ماسک شوند: شماره کارت‌ها، حساب‌های بانکی، IBANها، نام ذینفعان و شناسه‌های پرداخت داخلی.
باید باقی بمانند: مبالغ، ارزها، تاریخ‌های سررسید و آستانه‌های تایید.

صورت‌حساب‌های بانکی و تطبیق (Reconciliation):
کارکنانی که بخش‌هایی از صورت‌حساب را برای بررسی مجموع ارقام کپی می‌کنند، باید نام دارنده حساب و طرف مقابل را ماسک کنند اما ارقام مالی را نگه دارند. برای بررسی‌های دوره‌ای صورت‌حساب در مقیاس تیمی، یک گردش‌کار تحلیل سند ساختاریافته (structured document analysis) بر پنجره چت ترجیح داده می‌شود تا استخراج و ثبت (logging) بهتری صورت گیرد.

عملیات منابع انسانی (HR) و حقوقی:
در این بخش‌ها، ریسک بر اساس «زمینه» (context) است. همان‌طور که در NIST SP 800-122 ذکر شده، یک نام کوچک به‌تنهایی ممکن است PII نباشد، اما نامی که در کنار حقوق و یک شکایت قرار گرفته باشد، هست.

باید ماسک شوند: ایمیل‌های متقاضیان، شناسه‌های کارکنان، جزئیات پزشکی، طرفین شکایت و نام پروژه‌های محرمانه.
نتیجه: مدل همچنان در مورد لحن، ساختار و شناسایی مسائل کمک می‌کند، بدون اینکه بداند درباره چه کسی صحبت می‌شود.

پشتیبانی مشتریان:
تیم‌های پشتیبانی از AI برای کوتاه‌تر کردن پاسخ‌ها یا دسته‌بندی شکایات استفاده می‌کنند. یک پرامپت ماسک‌شده همچنان می‌تواند بیان کند که [CUSTOMER_1] درباره یک فاکتور تأخیری به مبلغ ۴,۲۰۰ درهم شکایت کرده است؛ این به AI اجازه می‌دهد پیش‌نویس پاسخی را بنویسد که کارشناس سپس آن را با مقادیر واقعی در CRM بازیابی می‌کند. این رویکرد به ویژه در پیاده‌سازی سیستم‌های پاسخگویی خودکار کاربرد دارد، مشابه آنچه در مقایسه ابزارهایی چون Bland AI و Vapi برای عامل‌های صوتی دیده می‌شود، جایی که حفظ حریم خصوصی در عین تعامل طبیعی با مشتری کلیدی است.

حاکمیت و انطباق (Governance and Compliance)

ماسک‌گذاری با قوانین بین‌المللی و استانداردهای امنیتی همسو است:

قانون شماره ۴۵ سال ۲۰۲۱ امارات (Federal Decree-Law No. 45): پردازش داده‌های شخصی بدون رضایت را ممنوع کرده و سازمان‌ها را ملزم به حفظ محرمانگی می‌کند. کپی کردن جزئیات در یک هوش مصنوعی مصرف‌کننده، استفاده‌ای از داده‌ها است که احتمالاً این تعهدات دور می‌زند.
ماده ۵(۱)(c) GDPR: ایجاب می‌کند که داده‌ها «کافی، مرتبط و محدود به آنچه ضروری است» باشند. ماسک‌گذاری با حذف هویت‌های غیرضروری برای انجام تکلیف، این اصل را پیاده می‌کند.
PCI DSS: شماره حساب اصلی را به عنوان داده‌ای تلقی می‌کند که باید در هر کجا که ظاهر می‌شود، از جمله پنجره‌های چت، محافظت شود.

تحلیل: تغییر به سمت کنترل در سطح فردی

سال‌ها بود که صنعت بر «درگاه سازمانی» (Enterprise Gateway) تمرکز داشت؛ این ایده که IT می‌تواند یک سایت را مسدود کند یا نسخه شرکتی Claude را فراهم کند. این روش به دلیل «اثر ضرب‌الاجل» (deadline effect) شکست می‌خورد: کارکنان وقتی ابزار شرکتی بیش از حد کند یا محدودکننده باشد، از حساب‌های شخصی خود در گوشی یا لپ‌تاپ‌های خانگی استفاده می‌کنند.

ماسک‌گذاری محلی، مرز امنیتی را از شبکه به مرورگر منتقل می‌کند. این رویکرد می‌پذیرد که «پرامپت» بردار اصلی نشت داده است. با تبدیل هوش مصنوعی به یک «جعبه سیاه» که فقط جایگاه‌داران را دریافت می‌کند، سیاست‌های آموزشی خاص هر ارائه‌دهنده دیگر اهمیتی ندارد.

این کار به‌طور مؤثری بهره‌وری را از حریم خصوصی جدا می‌کند. یک تیم می‌تواند از توانمندترین مدل موجود (حتی نسخه رایگان مصرف‌کننده) بدون ریسک نشت داده‌های میلیون دلاری استفاده کند، به شرطی که نقشه‌ی جایگزینی (mapping) روی دستگاه محلی باقی بماند.

اشتباهات رایج در ماسک‌گذاری

ماسک‌گذاری در الگوهای پیش‌بینی‌پذیری شکست می‌خورد. برای اجتناب از آن‌ها، تیم‌ها باید این عادت‌ها را اتخاذ کنند:

ماسک‌گذاری بیش از حد (Over-masking): حذف هر عدد یا تاریخی منجر به پاسخ‌های کلی می‌شود. مقادیر ضروری برای تکلیف را نگه دارید.
جایگاه‌داران ناسازگار: استفاده از تگ‌های مختلف برای یک شخص، مدل را گیج می‌کند. از شماره‌گذاری پایدار استفاده کنید (به‌طور مداوم [PERSON_1]).
راه-نفوذ اسکرین‌شات (The Screenshot Loophole): ماسک کردن متن اما ضمیمه کردن یک اسکرین‌شات خام. تصاویر، PII اصلی را از سد ماسک عبور می‌دهند.
نشت بازخورد (The Feedback Leak): کپی کردن مجدد مقادیر اصلی در چت برای «بررسی» پاسخ. این کار دوباره باعث نشت داده می‌شود.
انحراف گردش‌کار (Workflow Drift): برخورد با ماسک‌گذاری به عنوان یک پاکسازی یک‌باره. این فرآیند باید در سیاست رسمی استفاده از AI در تیم ادغام شود.

محدودیت‌ها و پیش‌نیازها

ماسک‌گذاری یک راه حل مطلق نیست. برخی ریسک‌ها باقی می‌مانند:

تکالیف وابسته به هویت: بررسی‌های Due-diligence یا تداخل منافع (conflict checks) روی اشخاص نامگذاری شده خاص را نمی‌توان ماسک کرد. این موارد نیازمند سیستم‌های تایید شده با کنترل‌های دسترسی سخت‌گیرانه هستند.
نشت استراتژی: یک بند در قرارداد ممکن است همچنان قیمت‌گذاری یا استراتژی را فاش کند، حتی اگر طرفین حذف شده باشند.
بازشناسی از طریق زمینه غنی (Rich Context Re-identification): پرامپتی که «مدیر مالی یک مشتری نام‌برده که در ژوئن استعفا داد» را توصیف می‌کند، بدون ذکر نام، شخص را شناسایی می‌کند. مرحله بازبینی انسانی تنها راه شناسایی این موارد است.
دقت هوش مصنوعی: ماسک‌گذاری توهمات (hallucinations) یا جمع‌های اشتباه را برطرف نمی‌کند. بازبینی معمول کاری همچنان مورد نیاز است.

افزونه Privacy Mask

Privacy Mask یک افزونه کروم توسط Paperwork است که در یک پنل کناری در کنار ابزارهایی مثل ChatGPT، Claude، Gemini، Grok، Copilot، DeepSeek و Perplexity قرار می‌گیرد. این ابزار به کاربران اجازه می‌دهد انواع موجودات خاص (شخص، ایمیل، کارت، IBAN، رفرنس حساب) را فعال یا غیرفعال کنند. چون به‌صورت محلی عمل می‌کند، مقادیر خام هرگز به سرور Paperwork ارسال نمی‌شوند.

برای کسانی که با کل فایل‌ها، آپلودهای دسته‌ای (batch uploads) یا نیاز به گزارش‌های حسابرسی (audit logs) سر و کار دارند، یک گردش‌کار کامل «ناشناس‌سازی سند» (Document Anonymization) انتخاب درستی است. در حالی که یک افزونه مرورگر برای لحظات سریع کپی-پیست مناسب است، سرویس‌های ناشناس‌سازی، سیاست‌های اجباری، مسیر یابی API و توکن‌گذاری قطعی (deterministic tokenization) را برای بررسی‌های تنظیم‌شده فراهم می‌کنند.

گام بعدی: برای ایمن کردن تیم خود، سیاست فعلی استفاده از AI را بازبینی کنید تا ببینید آیا لیست مشخصی از «موجودات حساس» (Sensitive Entities) که باید پیش از ارسال هر پرامپت ماسک شوند، تعریف شده است یا خیر.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

نگه داشتن (Visible)

مثال

دلیل کمک به مدل

مبالغ

۱۸,۵۰۰ درهم یا ۱۲۵,۷۵۰ دلار

اجازه استدلال درباره اندازه پرداخت، آستانه‌ها و نحوه بیان

تاریخ‌ها

۱۴ ژوئن یا سه ماهه سوم ۲۰۲۶

ضروری برای پیش‌نویس خطوط زمانی و ضرب‌الاجل‌ها

نقش‌های کلی

مشتری، فروشنده، کارمند

حفظ زمینه تجاری بدون افشای هویت

دسته‌بندی مشکل

درخواست استرداد وجه، فاکتور گمشده

کمک به مدل برای انتخاب نوع پاسخ مناسب

ساختار سند

ردیف‌های جدول، نقاط گلوله‌ای (bullets)

حفظ شکل و ساختار مطالب مبدأ

قوانین غیرحساس

تاییدیه برای مبالغ بالای ۵۰,۰۰۰ درهم نیاز است

اجازه می‌دهد مدل دستورات داخلی را اعمال کند

راهنمای فارسی هوش مصنوعی — با نگاه به ایران