شاید تصور کنید دستورات سیستمی یا دادههای محرمانه با یک دستور سادهی «فاش نکن» ایمن میشوند، اما واقعیت بسیار متخلخلتر است. باید بدانید که مدلهای پیشرو قادر نیستند مرزهای اطلاعاتی را بهطور کامل حفظ کنند و حتی وقتی صراحتاً از آنها خواسته میشود چیزی را پنهان کنند، باز هم ردپای آن داده را در خروجی باقی میگذارند.
در حالی که سازمانها برای مدیریت دادههای حساس به مدلهای زبانی بزرگ (LLM) تکیه میکنند، مرزهای اطلاعاتی در این مدلها در حال فروپاشی است. همانطور که در تحلیلهای پیشین ما دربارهی امنیت مدلهای بازمتن اشاره کردیم، کنترل خروجیها همیشه با کنترل دسترسی به دادهها یکی نیست و این موضوع امنیت جریانهای کاری عاملمحور (Agentic) را به خطر میاندازد.
طبق گزارشی که در ۱۲ مه ۲۰۲۶ در arxiv.org منتشر شد، پژوهشی به سرپرستی آری هولتزمن (Ari Holtzman) نشان میدهد که مدلهای پیشرو در ۷۹٪ از موارد، اطلاعات محرمانه را بهصورت «موضوعی» فاش میکنند. در این آزمایش، به مدلها یک کلمه محرمانه داده شد و از آنها خواسته شد داستانی بنویسند بدون اینکه آن کلمه را به کار ببرند. اگرچه کلمه محرمانه هرگز بهطور مستقیم در متن ظاهر نشد، اما یک مدل دوم توانست از طریق تحلیل موضوع، تصویرسازیها و فضای داستان، آن کلمه را شناسایی کند. این توانایی در استخراج الگوهای پنهان از خروجیهای مدل، شباهت زیادی به منطق بهکاررفته در سازوکار DSIPA برای شکار متون تولیدشده توسط ماشین دارد.
بر اساس مستندات این پژوهش، یافتههای کلیدی عبارتند از:
- نشت موضوعی با افزایش اندازه مدل در یک خانوادهی واحد، بهشدت افزایش مییابد.
- محتواهای کوتاه، مانند جوکها، این نوع نشت را نشان نمیدهند.
- تلاش مدل برای «دوری از موضوع» (Writing away)، خود به یک سیگنال قابل شناسایی برای مدل مهاجم تبدیل میشود.
- ارائه یک مفهوم جایگزین (Decoy) میتواند بهطور جزئی نشت اطلاعات را از راز واقعی به سمت مفهوم جعلی منحرف کند.
برای جامعهی فنی، این یافته به این معناست که «توجه» (Attention) مدل به یک راز، سیگنالی پاکناپذیر ایجاد میکند که همراستاسازی (Alignment) از طریق RLHF یا مهندسی پرامپت قادر به سرکوب آن نیست. این نتیجه، این فرض را که محدودیتهای منفی صریح برای جداسازی دادهها در مدلهای پیشرو کافی هستند، به چالش میکشد. این محدودیت در RLHF، یادآور چالشهای مربوط به دقت و میانهروی است که در تحلیل ما پیرامون ریاضیات غافلگیری و بنبست RLHF به آنها پرداختیم.
گام بعدی شما
- بررسی کنید آیا دستورات سیستمی شما در برابر حملات استخراج موضوعی آسیبپذیر هستند یا خیر.
- از بهکارگیری مفاهیم جایگزین (Decoy) برای کاهش اثر نشت در دادههای حساس استفاده کنید.
- منتظر پژوهشهای تکمیلی دربارهی رابطه این پدیده با مکانیسم توجه در معماری ترنسفورمر باشید.
اما داستان سختافزاری این تحول حتی شگفتانگیزتر است — به تحلیل ما دربارهی تراشههای Blackwell مراجعه کنید.




گفتگو