گزارش arXiv: نشت موضوعی داده‌های محرمانه در ۷۹٪ از مدل‌های زبانی پیشرو

شاید تصور کنید دستورات سیستمی یا داده‌های محرمانه با یک دستور ساده‌ی «فاش نکن» ایمن می‌شوند، اما واقعیت بسیار متخلخل‌تر است. باید بدانید که مدل‌های پیشرو قادر نیستند مرزهای اطلاعاتی را به‌طور کامل حفظ کنند و حتی وقتی صراحتاً از آن‌ها خواسته می‌شود چیزی را پنهان کنند، باز هم ردپای آن داده را در خروجی باقی می‌گذارند.

در حالی که سازمان‌ها برای مدیریت داده‌های حساس به مدل‌های زبانی بزرگ (LLM) تکیه می‌کنند، مرزهای اطلاعاتی در این مدل‌ها در حال فروپاشی است. همان‌طور که در تحلیل‌های پیشین ما درباره‌ی امنیت مدل‌های بازمتن اشاره کردیم، کنترل خروجی‌ها همیشه با کنترل دسترسی به داده‌ها یکی نیست و این موضوع امنیت جریان‌های کاری عامل‌محور (Agentic) را به خطر می‌اندازد.

طبق گزارشی که در ۱۲ مه ۲۰۲۶ در arxiv.org منتشر شد، پژوهشی به سرپرستی آری هولتزمن (Ari Holtzman) نشان می‌دهد که مدل‌های پیشرو در ۷۹٪ از موارد، اطلاعات محرمانه را به‌صورت «موضوعی» فاش می‌کنند. در این آزمایش، به مدل‌ها یک کلمه محرمانه داده شد و از آن‌ها خواسته شد داستانی بنویسند بدون اینکه آن کلمه را به کار ببرند. اگرچه کلمه محرمانه هرگز به‌طور مستقیم در متن ظاهر نشد، اما یک مدل دوم توانست از طریق تحلیل موضوع، تصویرسازی‌ها و فضای داستان، آن کلمه را شناسایی کند. این توانایی در استخراج الگوهای پنهان از خروجی‌های مدل، شباهت زیادی به منطق به‌کاررفته در سازوکار DSIPA برای شکار متون تولیدشده توسط ماشین دارد.

بر اساس مستندات این پژوهش، یافته‌های کلیدی عبارتند از:

نشت موضوعی با افزایش اندازه مدل در یک خانواده‌ی واحد، به‌شدت افزایش می‌یابد.
محتواهای کوتاه، مانند جوک‌ها، این نوع نشت را نشان نمی‌دهند.
تلاش مدل برای «دوری از موضوع» (Writing away)، خود به یک سیگنال قابل شناسایی برای مدل مهاجم تبدیل می‌شود.
ارائه یک مفهوم جایگزین (Decoy) می‌تواند به‌طور جزئی نشت اطلاعات را از راز واقعی به سمت مفهوم جعلی منحرف کند.

برای جامعه‌ی فنی، این یافته به این معناست که «توجه» (Attention) مدل به یک راز، سیگنالی پاک‌ناپذیر ایجاد می‌کند که همراستاسازی (Alignment) از طریق RLHF یا مهندسی پرامپت قادر به سرکوب آن نیست. این نتیجه، این فرض را که محدودیت‌های منفی صریح برای جداسازی داده‌ها در مدل‌های پیشرو کافی هستند، به چالش می‌کشد. این محدودیت در RLHF، یادآور چالش‌های مربوط به دقت و میانه‌روی است که در تحلیل ما پیرامون ریاضیات غافل‌گیری و بن‌بست RLHF به آن‌ها پرداختیم.

گام بعدی شما

بررسی کنید آیا دستورات سیستمی شما در برابر حملات استخراج موضوعی آسیب‌پذیر هستند یا خیر.
از به‌کارگیری مفاهیم جایگزین (Decoy) برای کاهش اثر نشت در داده‌های حساس استفاده کنید.
منتظر پژوهش‌های تکمیلی درباره‌ی رابطه این پدیده با مکانیسم توجه در معماری ترنسفورمر باشید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

این گزارش با خط‌لولهٔ خودکار دات‌هوش از منابع معتبر جهانی تدوین و زیر نظر تحریریه منتشر شده است. روش کار ما

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

اخبار روزانه، معرفی ابزارها و مدل‌ها، و آموزشِ کار با هوش مصنوعی؛ همیشه با این پرسش که از ایران چه چیزی کار می‌کند و چه چیزی نه.

بر اساس مستندات این پژوهش، یافته‌های کلیدی عبارتند از:

نشت موضوعی با افزایش اندازه مدل در یک خانواده‌ی واحد، به‌شدت افزایش می‌یابد.
محتواهای کوتاه، مانند جوک‌ها، این نوع نشت را نشان نمی‌دهند.
تلاش مدل برای «دوری از موضوع» (Writing away)، خود به یک سیگنال قابل شناسایی برای مدل مهاجم تبدیل می‌شود.
ارائه یک مفهوم جایگزین (Decoy) می‌تواند به‌طور جزئی نشت اطلاعات را از راز واقعی به سمت مفهوم جعلی منحرف کند.

گام بعدی شما

بررسی کنید آیا دستورات سیستمی شما در برابر حملات استخراج موضوعی آسیب‌پذیر هستند یا خیر.
از به‌کارگیری مفاهیم جایگزین (Decoy) برای کاهش اثر نشت در داده‌های حساس استفاده کنید.
منتظر پژوهش‌های تکمیلی درباره‌ی رابطه این پدیده با مکانیسم توجه در معماری ترنسفورمر باشید.

اما داستان سخت‌افزاری این تحول حتی شگفت‌انگیزتر است — به تحلیل ما درباره‌ی تراشه‌های Blackwell مراجعه کنید.

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش arXiv: نشت موضوعی داده‌های محرمانه در ۷۹٪ از مدل‌های زبانی پیشرو

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش arXiv: نشت موضوعی داده‌های محرمانه در ۷۹٪ از مدل‌های زبانی پیشرو

گام بعدی شما

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش arXiv: نشت موضوعی داده‌های محرمانه در ۷۹٪ از مدل‌های زبانی پیشرو

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران

گزارش arXiv: نشت موضوعی داده‌های محرمانه در ۷۹٪ از مدل‌های زبانی پیشرو

گام بعدی شما

مقاله‌های مرتبطهمه ←

سرمایه‌گذاری سری B: ۳۱۰ میلیون دلار برای شبیه‌سازی فیزیک در Odyssey

هگینگ‌فیس با استاندارد ARD جست‌وجوی ابزارها برای عامل‌ها را خودکار کرد

«پیش‌بینی مسیر از طریق متن»؛ دستاورد جدید مؤسسه AllenAI در فضای سه‌بعدی

گفتگو

بسته‌ی هفتگی دات‌هوش

راهنماهای دات‌هوش

اصطلاحات این مطلب

راهنمای فارسی هوش مصنوعی — با نگاه به ایران