آشکار کردن دیپ فیک (جعل عمیق) : در طی سال‌های گذشته، افزایش پیچیدگی گوشی‌های هوشمند و رشد شبکه‌های اجتماعی باعث شده است تا مقدار عظیمی از مطالب جدید دیجیتالی شی[۱] ایجاد شود. این استفاده فوق العاده از تصاویر دیجیتال با افزایش تکنیک‌ها، برای تغییر محتوای تصویر دنبال شده است. تا همین اواخر، این تکنیک‌ها فراتر از کشش اغلب مصرف کنندگان بودند، زیرا وقت‌گیر و کسل کننده بودند و به تخصص محیط کاربردی بالایی در زمینه کامپیوتر نیاز داشتند. با این وجود، به لطف پیشرفت‌های اخیر در فراگیری ماشین و دسترسی به حجم وسیعی از داده‌های آموزشی، این محدودیت‌ها به تدریج از بین رفته‌اند. در نتیجه، زمان ساخت و دستکاری مطالب دیجیتالی به میزان قابل توجهی کاهش یافته است، حتی به کاربران آماتور این امکان را می‌دهد که به خواست خود ت مطالب را تغییر دهند.

شکل ۱: داده‌های آماری طیف توان ۱D از هر مجموعه زیر داده حاصل از Faces-HQ. هرچه فرکانس بالاتر باشد، تفاوت بین داده‌های واقعی یا جعلی بزرگتر است.

به طور خاص، اخیراً از مدل‌های مولد دیپ برای تولید تصاویر مصنوعی با ظاهر واقعی استفاده شده است. این مدل‌ها مبتنی بر شبکه‌های عصبی عمیق هستند که قادر به تخمین زد توزیع داده‌های یک مجموعه آموزشی خاص هستند. از این رو، می‌توان از توزیع اکتسابی نمونه گرفت و تغییراتی را اضافه کرد. دو مورد از پرکاربردترین و کارآمدترین روش‌ها، رمزگذارهای متغیر خودکار (VAE) و شبکه‌های مولد تخاصمی (GAN) هستند. به‌ویژه، روش‌های GAN اخیرا محدودیت‌های آخرین نتایج را از بین برده‌اند، و وضوح و کیفیت تصاویر ایجاد شده را بهبود بخشیده‌اند. در نتیجه، مدل‌های عمیق تولیدی باعث باز شدن دروازه جدیدی از تصاویر جعلی مبتنی بر هوش مصنوعی می‌شوند که منجر به انتشار سریع محتوای تصویر با کیفیت بالا می‌شوند. در حالی که پیشرفت‌های چشمگیری برای تشخیص جعل تصویر صورت گرفته است، هنوز هم یک کار سخت باقی مانده است زیرا اکثر روش‌های فعلی به روش‌های فراگیری عمیق متکی هستند، که به مقادیر زیادی از داده‌های آموزشی دارای برچسب نیاز دارند.

در این مقاله، به مشکل تشخیص این محتوای تصویری مصنوعی، به طور خاص‌تر، چهره‌های جعلی می‌پردازیم. به منظور تعیین ماهیت این تصاویر، ما یک روش جدید مبتنی بر فراگیری ماشین را معرفی می‌کنیم. روش ما به آنالیز فرکانس کلاسیک تصاویر متکی است که رفتارهای متفاوتی را در فرکانس‌های بالا نشان می‌دهد. شکل ۱ نشان می‌دهد که، هنگامی که تصاویر به طور مصنوعی تولید می‌شوند، یک طیف خاص از اجزای فرکانس چگونه رفتار می‌کنند.

شکل ۲: بررسی اجمالی خط لوله پردازش روش ما. این خط لوله شامل دو بلوک اصلی است، یک بلوک استخراج ویژگی با استفاده از DFT و یک بلوک آموزشی، که در آن یک کلاسیفایر از ویژگی‌های تبدیل شده جدید، برای تعیین اینکه صورت واقعی است یا خیر استفاده می‌کند. توجه کنید که تصاویر ورودی، قبل از DFT، به مقیاس خاکستری تبدیل می‌شوند.

 

روش ما با آنالیز دامنه فرکانس و به دنبال آن، بوسیله یک کلاسیفایر ساده، تحت نظارت یا بدون نظارت، چنین آثار جعلی را تشخیص می‌دهد. توجه کنید که این خط لوله پیشنهادی تعداد زیادی از داده‌ها را در بر نمی‌گیرد و یا به آنها نیازی ندارد، و این یک ویژگی بسیار مناسب برای سناریوهایی است که از کمبود داده رنج می‌برند. علاوه بر این، ما یک مجموعه داده جدید Faces-HQ را که برای تکمیل مجموعه داده‌های CelebA و مجموعه داده‌های فیس فورنسیک++ استفاده کردیم، برای ارزیابی تجربی ارائه کردیم.

به طور کلی، همکاری ما به شرح زیر خلاصه می‌شود:

  • ما یک خط لوله طبقه‌بندی جدید را، بر اساس آنالیز دامنه فرکانس، برای تشخیص چهره مصنوعی معرفی می کنیم.
  • ما مجموعه‌ای از داده‌های عمومی (Faces-HQ) تصاویر با کیفیت و حاوی چهره‌های واقعی و جعلی را، از مجموعه‌ای از بانک‌های اطلاعاتی عمومی مختلف ارائه می‌دهیم.
  • ما نشان می‌دهیم که چگونه با موفقیت یاد می‌گیریم که جعل را تشخیص دهیم: آزمایشهای گسترده بر روی تصاویر با وضوح بالا و متوسط ​​از مجموعه داده‌های Faces-HQ و CelebA، دقت ۱۰۰٪ را نشان داد. علاوه بر این، ارزیابی مجموعه داده‌های فیس فورنسیک++ با ویدیوهای با وضوح پایین، به دقت ۹۱٪ رسیده است.

مترجم مقاله : پویا جعفری

 

[۱] new digital object contents