آشکار کردن دیپ فیک (جعل عمیق) : در طی سالهای گذشته، افزایش پیچیدگی گوشیهای هوشمند و رشد شبکههای اجتماعی باعث شده است تا مقدار عظیمی از مطالب جدید دیجیتالی شی[۱] ایجاد شود. این استفاده فوق العاده از تصاویر دیجیتال با افزایش تکنیکها، برای تغییر محتوای تصویر دنبال شده است. تا همین اواخر، این تکنیکها فراتر از کشش اغلب مصرف کنندگان بودند، زیرا وقتگیر و کسل کننده بودند و به تخصص محیط کاربردی بالایی در زمینه کامپیوتر نیاز داشتند. با این وجود، به لطف پیشرفتهای اخیر در فراگیری ماشین و دسترسی به حجم وسیعی از دادههای آموزشی، این محدودیتها به تدریج از بین رفتهاند. در نتیجه، زمان ساخت و دستکاری مطالب دیجیتالی به میزان قابل توجهی کاهش یافته است، حتی به کاربران آماتور این امکان را میدهد که به خواست خود ت مطالب را تغییر دهند.

شکل ۱: دادههای آماری طیف توان ۱D از هر مجموعه زیر داده حاصل از Faces-HQ. هرچه فرکانس بالاتر باشد، تفاوت بین دادههای واقعی یا جعلی بزرگتر است.
به طور خاص، اخیراً از مدلهای مولد دیپ برای تولید تصاویر مصنوعی با ظاهر واقعی استفاده شده است. این مدلها مبتنی بر شبکههای عصبی عمیق هستند که قادر به تخمین زد توزیع دادههای یک مجموعه آموزشی خاص هستند. از این رو، میتوان از توزیع اکتسابی نمونه گرفت و تغییراتی را اضافه کرد. دو مورد از پرکاربردترین و کارآمدترین روشها، رمزگذارهای متغیر خودکار (VAE) و شبکههای مولد تخاصمی (GAN) هستند. بهویژه، روشهای GAN اخیرا محدودیتهای آخرین نتایج را از بین بردهاند، و وضوح و کیفیت تصاویر ایجاد شده را بهبود بخشیدهاند. در نتیجه، مدلهای عمیق تولیدی باعث باز شدن دروازه جدیدی از تصاویر جعلی مبتنی بر هوش مصنوعی میشوند که منجر به انتشار سریع محتوای تصویر با کیفیت بالا میشوند. در حالی که پیشرفتهای چشمگیری برای تشخیص جعل تصویر صورت گرفته است، هنوز هم یک کار سخت باقی مانده است زیرا اکثر روشهای فعلی به روشهای فراگیری عمیق متکی هستند، که به مقادیر زیادی از دادههای آموزشی دارای برچسب نیاز دارند.
در این مقاله، به مشکل تشخیص این محتوای تصویری مصنوعی، به طور خاصتر، چهرههای جعلی میپردازیم. به منظور تعیین ماهیت این تصاویر، ما یک روش جدید مبتنی بر فراگیری ماشین را معرفی میکنیم. روش ما به آنالیز فرکانس کلاسیک تصاویر متکی است که رفتارهای متفاوتی را در فرکانسهای بالا نشان میدهد. شکل ۱ نشان میدهد که، هنگامی که تصاویر به طور مصنوعی تولید میشوند، یک طیف خاص از اجزای فرکانس چگونه رفتار میکنند.

شکل ۲: بررسی اجمالی خط لوله پردازش روش ما. این خط لوله شامل دو بلوک اصلی است، یک بلوک استخراج ویژگی با استفاده از DFT و یک بلوک آموزشی، که در آن یک کلاسیفایر از ویژگیهای تبدیل شده جدید، برای تعیین اینکه صورت واقعی است یا خیر استفاده میکند. توجه کنید که تصاویر ورودی، قبل از DFT، به مقیاس خاکستری تبدیل میشوند.
روش ما با آنالیز دامنه فرکانس و به دنبال آن، بوسیله یک کلاسیفایر ساده، تحت نظارت یا بدون نظارت، چنین آثار جعلی را تشخیص میدهد. توجه کنید که این خط لوله پیشنهادی تعداد زیادی از دادهها را در بر نمیگیرد و یا به آنها نیازی ندارد، و این یک ویژگی بسیار مناسب برای سناریوهایی است که از کمبود داده رنج میبرند. علاوه بر این، ما یک مجموعه داده جدید Faces-HQ را که برای تکمیل مجموعه دادههای CelebA و مجموعه دادههای فیس فورنسیک++ استفاده کردیم، برای ارزیابی تجربی ارائه کردیم.
به طور کلی، همکاری ما به شرح زیر خلاصه میشود:
- ما یک خط لوله طبقهبندی جدید را، بر اساس آنالیز دامنه فرکانس، برای تشخیص چهره مصنوعی معرفی می کنیم.
- ما مجموعهای از دادههای عمومی (Faces-HQ) تصاویر با کیفیت و حاوی چهرههای واقعی و جعلی را، از مجموعهای از بانکهای اطلاعاتی عمومی مختلف ارائه میدهیم.
- ما نشان میدهیم که چگونه با موفقیت یاد میگیریم که جعل را تشخیص دهیم: آزمایشهای گسترده بر روی تصاویر با وضوح بالا و متوسط از مجموعه دادههای Faces-HQ و CelebA، دقت ۱۰۰٪ را نشان داد. علاوه بر این، ارزیابی مجموعه دادههای فیس فورنسیک++ با ویدیوهای با وضوح پایین، به دقت ۹۱٪ رسیده است.
مترجم مقاله : پویا جعفری
[۱] new digital object contents