Multimodal manipulations (also known as audio-visual deepfakes) make it difficult for unimodal deepfake detectors to detect forgeries in multimedia content. To avoid the spread of false propaganda and fake news, timely detection is crucial. The damage to either modality (i.e., visual or audio) can only be discovered through multimodal models that can exploit both pieces of information simultaneously. However, previous methods mainly adopt unimodal video forensics and use supervised pre-training for forgery detection. This study proposes a new method based on a multimodal self-supervised-learning (SSL) feature extractor to exploit inconsistency between audio and visual modalities for multimodal video forgery detection. We use the transformer-based SSL pre-trained Audio-Visual HuBERT (AV-HuBERT) model as a visual and acoustic feature extractor and a multi-scale temporal convolutional neural network to capture the temporal correlation between the audio and visual modalities. Since AV-HuBERT only extracts visual features from the lip region, we also adopt another transformer-based video model to exploit facial features and capture spatial and temporal artifacts caused during the deepfake generation process. Experimental results show that our model outperforms all existing models and achieves new state-of-the-art performance on the FakeAVCeleb and DeepfakeTIMIT datasets.


翻译:多模态篡改(亦称音视频深度伪造)使得单模态深度伪造检测器难以识别多媒体内容中的伪造。为防止虚假宣传和假新闻的传播,及时检测至关重要。仅通过能够同时利用两种信息的模态模型,才能发现对任一模态(即视觉或音频)的损害。然而,先前方法主要采用单模态视频取证,并使用监督式预训练进行伪造检测。本研究提出一种基于多模态自监督学习特征提取器的新方法,通过挖掘音频与视觉模态间的不一致性,实现多模态视频伪造检测。我们使用基于Transformer的自监督预训练音频-视觉HuBERT模型作为视觉与声学特征提取器,并采用多尺度时间卷积神经网络捕捉音频与视觉模态间的时间相关性。由于AV-HuBERT仅从唇部区域提取视觉特征,我们还引入另一基于Transformer的视频模型,以利用面部特征并捕获深度伪造生成过程中产生的空间与时间伪影。实验结果表明,我们的模型优于所有现有模型,在FakeAVCeleb和DeepfakeTIMIT数据集上实现了新的最先进性能。

0
下载
关闭预览

相关内容

国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员