باید بدانید که بازنویسی متون توسط هوش مصنوعی، برخلاف تصور رایج، هویت نویسنده را کاملاً پاک نمیکند. تصور کنید متنی را به یک مدل زبانی بدهید تا آن را کاملاً تغییر دهد؛ با این حال، ردپای ریاضی نویسنده اصلی همچنان در لایههای زیرین متن زنده است.
در عصر حاضر که مدلهای زبانی بزرگ (Large Language Model) میتوانند با دقت خیرهکنندهای از هر لحنی تقلید کنند، توانایی تفکیک سبک انسانی از تقلیدهای ماشینی برای فارنزیک دیجیتال حیاتی است. همانطور که در تحلیلهای پیشین ما دربارهی امنیت مدلهای بازمتن اشاره کردیم، نبرد میان تولیدکننده و شناسایهکننده محتوا در حال انتقال از سطح کلمات به سطح ساختارهای عمیقتر است. این مطالعه با تمرکز بر متون ادبی فرانسوی، بررسی میکند که آیا اطلاعات سبکشناختی در طول فرآیند بازنویسی از بین میروند یا خیر.
به نقل از گزارش منتشر شده در ۱۲ مه ۲۰۲۶ در arXiv.org، پژوهش بنجامین ایکارد (Benjamin Icard) با استفاده از یک مجموعه داده ادبی کنترلشده برای اندازهگیری پراکندگی بردار معنایی (Embedding) به نتایج زیر دست یافت:
- بردارهای معنایی بهطور قابلاعتمادی ویژگیهای سبکشناختی نویسنده را شکار میکنند.
- این سیگنالها حتی پس از بازنویسی توسط هوش مصنوعی زاینده (Generative AI) پابرجا میمانند.
- متون بازنویسیشده، الگوهای خاص تولیدشده توسط مدل را در کنار سبک نویسنده اصلی نمایش میدهند.
برای جامعه فنی، این یافته فرضیه قدیمی مبنی بر اینکه بازنویسی توسط LLM باعث «شستشوی» کامل هویت نویسنده میشود را رد میکند. این موضوع نشان میدهد که انتساب نویسندگی تنها به انتخاب کلمات سطحی وابسته نیست، بلکه به ویژگیهای هندسی عمیق در فضای برداری مربوط میشود. در واقع، اکنون میتوان بر آنچه مدل «حفظ میکند» تمرکز کرد، نه آنچه «تغییر میدهد».
گام بعدی شما
- بررسی اینکه آیا این سیگنالهای سبکشناختی در زبانهای دیگر (بهویژه زبانهای با ساختار متفاوت از فرانسوی) نیز ثابت هستند.
- مطالعه متدولوژی کامل و معیارهای پراکندگی در مستندات arXiv.org برای پیادهسازی در سیستمهای تشخیص جعل.
- آزمایش ابزارهای تحلیل برداری بر روی متون بازنویسیشده برای شناسایی تداخل سبک انسانی و ماشینی.
اما این موضوع تنها بخشی از معماری شناسایی است؛ در گزارش بعدی به بررسی روشهای تشخیص مدلهای استدلالی خواهیم پرداخت.




گفتگو