گسترش روزافزون مدلهای تولید محتوای مصنوعی، نگرانیهای جدی درباره اعتماد دیجیتال ایجاد کرده است. اگرچه آشکارسازهای مبتنی بر یادگیری عمیق عملکرد قابل قبولی دارند، بسیاری از آنها به ویژگیهای حوزه فضایی وابستهاند که در اثر فشردهسازی کیفیت خود را از دست میدهند. این محدودیت، پژوهشگران را به ادغام نمایشهای فرکانسی با یادگیری عمیق ترغیب کرده است.
پژوهشهای پیشین، تبدیلهای فرکانسی مانند تبدیل کسینوسی گسسته، تبدیل فوریه سریع و تبدیل موجک را برای تشخیص دیپفیک بررسی کردهاند. با این حال، تبدیل کروولت که ویژگیهای چندسویه و چندمقیاسی برتری دارد، تاکنون مورد توجه قرار نگرفته بود.
این پژوهش رویکردی نوین مبتنی بر تبدیل کروولت معرفی میکند که کیفیت ویژگیها را از طریق توجه در سطح وجوه و ماسکهای فضایی مقیاسآگاه ارتقا میدهد. این مؤلفهها برای تأکید انتخابی بر مؤلفههای فرکانسی متمایزکننده آموزش دیدهاند. نشانههای فرکانسی پالایششده بازسازی شده و به شبکه Xception از پیش آموزشدیده و اصلاحشده برای طبقهبندی ارسال میشوند.
ارزیابی بر روی مجموعه داده FaceForensics++ در دو سطح فشردهسازی نشان داد که این روش در فشردهسازی پایین به دقت ۹۸.۴۸ درصد و AUC برابر با ۹۹.۹۶ درصد دست مییابد و در شرایط فشردهسازی بالا نیز عملکرد قوی خود را حفظ میکند. این نتایج، اثربخشی و قابلیت تفسیر تشخیص جعل مبتنی بر کروولت را تأیید میکند و مسیری امیدوارکننده برای شناسایی مقاوم محتوای مصنوعی ارائه میدهد.
نوآوری اصلی این پژوهش در بهرهگیری از توانایی منحصربهفرد تبدیل کروولت برای ثبت ویژگیهای چندسویه و چندمقیاسی نهفته است که با مکانیزمهای توجه ترکیب شده تا بر مؤلفههای فرکانسی متمایزکننده تمرکز کند. این رویکرد نهتنها دقت تشخیص را بهبود میبخشد، بلکه درک عمیقتری از نحوه تمایز اطلاعات فرکانسی میان محتوای اصیل و دستکاریشده فراهم میکند و به نیازهای حیاتی احراز اصالت رسانههای دیجیتال پاسخ میدهد.

گفتگو