视听一体化能否加强多式联运袭击下的稳健性? (Can audio-visual integration strengthen robustness under multimodal attacks?) - 专知论文

会员服务 ·

0

多峰值 · Integration · 稳健性 · MoDELS · Extensibility ·

2021 年 4 月 5 日

Can audio-visual integration strengthen robustness under multimodal attacks?

翻译：视听一体化能否加强多式联运袭击下的稳健性?

Yapeng Tian,Chenliang Xu

from arxiv, CVPR 2021

In this paper, we propose to make a systematic study on machines multisensory perception under attacks. We use the audio-visual event recognition task against multimodal adversarial attacks as a proxy to investigate the robustness of audio-visual learning. We attack audio, visual, and both modalities to explore whether audio-visual integration still strengthens perception and how different fusion mechanisms affect the robustness of audio-visual models. For interpreting the multimodal interactions under attacks, we learn a weakly-supervised sound source visual localization model to localize sounding regions in videos. To mitigate multimodal attacks, we propose an audio-visual defense approach based on an audio-visual dissimilarity constraint and external feature memory banks. Extensive experiments demonstrate that audio-visual models are susceptible to multimodal adversarial attacks; audio-visual integration could decrease the model robustness rather than strengthen under multimodal attacks; even a weakly-supervised sound source visual localization model can be successfully fooled; our defense method can improve the invulnerability of audio-visual networks without significantly sacrificing clean model performance.

翻译：在本文中,我们建议对受到攻击的机器多重感知进行系统研究。我们使用针对多式对抗性攻击的视听事件识别任务作为调查视听学习的稳健性的代理物。我们攻击视听一体化的视听和两种模式,以探究视听一体化是否仍然能增强感知力,以及不同融合机制如何影响视听模型的稳健性。在解释攻击情况下的多式互动时,我们学习了一种监督不力的声源视觉定位模型,以便将探测区域在视频中本地化。为了减轻多式攻击,我们提议了一种基于视听差异限制和外部特征记忆库的视听防御方法。广泛的实验表明,视听模型很容易受到多式对抗性攻击;视听一体化可以降低模型的稳健性,而不是在多式攻击下加强;甚至一种受微弱监督的声源视觉本地化模型也可以被成功愚弄;我们的防御方法可以在不显著牺牲清洁模型性能的情况下改进视听网络的易受损害性。

0

相关内容

多峰值

【WWW2021】本体增强零样本学习

【WWW2021】本体增强零样本学习

专知会员服务

34+阅读 · 2021年2月26日

【MIT干货书】机器学习算法视角，126页pdf

【MIT干货书】机器学习算法视角，126页pdf

专知会员服务

78+阅读 · 2021年1月25日

【NeurIPS 2020】对比学习全局和局部医学图像分割特征

【NeurIPS 2020】对比学习全局和局部医学图像分割特征

专知会员服务

44+阅读 · 2020年10月20日

【KDD2020】图模型信息融合

专知会员服务

39+阅读 · 2020年10月15日

【硬核课】机器人学习课程，UT Austin朱玉可博士讲述自主机器人的人工智能与机器学习机器学习算法

【硬核课】机器人学习课程，UT Austin朱玉可博士讲述自主机器人的人工智能与机器学习机器学习算法

专知会员服务

40+阅读 · 2020年9月21日

【IJCAI2020-Facebook】利用弱标记数据对声音进行大规模的视听学习

【IJCAI2020-Facebook】利用弱标记数据对声音进行大规模的视听学习

专知会员服务

19+阅读 · 2020年6月3日

【CVPR2020-Oral-浙江大学】深度知识迁移的深度归因图，DEPARA: Deep Attribution Graph

【CVPR2020-Oral-浙江大学】深度知识迁移的深度归因图，DEPARA: Deep Attribution Graph

专知会员服务

27+阅读 · 2020年3月19日

【北邮-腾讯AI】自监督学习音视觉说话人认证，Self-supervised learning for audio-visual speaker diarization

【北邮-腾讯AI】自监督学习音视觉说话人认证，Self-supervised learning for audio-visual speaker diarization

专知会员服务

26+阅读 · 2020年2月16日

可视化特征属性基线的影响，Visualizing the Impact of Feature Attribution Baselines

可视化特征属性基线的影响，Visualizing the Impact of Feature Attribution Baselines

专知会员服务

10+阅读 · 2020年1月16日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

已删除

将门创投

3+阅读 · 2019年1月29日

Protecting Intellectual Property of Generative Adversarial Networks from Ambiguity Attack

Arxiv

3+阅读 · 2021年3月1日

Deflecting Adversarial Attacks

Deflecting Adversarial Attacks

Arxiv

8+阅读 · 2020年2月18日

Robust Graph Neural Network Against Poisoning Attacks via Transfer Learning

Arxiv

6+阅读 · 2019年8月20日

Are Generative Classifiers More Robust to Adversarial Attacks?

Are Generative Classifiers More Robust to Adversarial Attacks?

Arxiv

4+阅读 · 2018年7月9日

Attacking Visual Language Grounding with Adversarial Examples: A Case Study on Neural Image Captioning

Arxiv

4+阅读 · 2018年5月22日

Reciprocal Attention Fusion for Visual Question Answering

Arxiv

5+阅读 · 2018年5月11日

Grad-CAM++: Generalized Gradient-based Visual Explanations for Deep Convolutional Networks

Arxiv

4+阅读 · 2018年5月8日

Saliency-Enhanced Robust Visual Tracking

Arxiv

6+阅读 · 2018年2月8日

Audio Adversarial Examples: Targeted Attacks on Speech-to-Text

Arxiv

18+阅读 · 2018年1月5日

Integrating both Visual and Audio Cues for Enhanced Video Caption

Arxiv

4+阅读 · 2017年12月9日

VIP会员

文章信息

相关主题

相关VIP内容

【WWW2021】本体增强零样本学习

【WWW2021】本体增强零样本学习

专知会员服务

34+阅读 · 2021年2月26日

【MIT干货书】机器学习算法视角，126页pdf

【MIT干货书】机器学习算法视角，126页pdf

专知会员服务

78+阅读 · 2021年1月25日

【NeurIPS 2020】对比学习全局和局部医学图像分割特征

【NeurIPS 2020】对比学习全局和局部医学图像分割特征

专知会员服务

44+阅读 · 2020年10月20日

【KDD2020】图模型信息融合

专知会员服务

39+阅读 · 2020年10月15日

【硬核课】机器人学习课程，UT Austin朱玉可博士讲述自主机器人的人工智能与机器学习机器学习算法

【硬核课】机器人学习课程，UT Austin朱玉可博士讲述自主机器人的人工智能与机器学习机器学习算法

专知会员服务

40+阅读 · 2020年9月21日

【IJCAI2020-Facebook】利用弱标记数据对声音进行大规模的视听学习

【IJCAI2020-Facebook】利用弱标记数据对声音进行大规模的视听学习

专知会员服务

19+阅读 · 2020年6月3日

【CVPR2020-Oral-浙江大学】深度知识迁移的深度归因图，DEPARA: Deep Attribution Graph

【CVPR2020-Oral-浙江大学】深度知识迁移的深度归因图，DEPARA: Deep Attribution Graph

专知会员服务

27+阅读 · 2020年3月19日

【北邮-腾讯AI】自监督学习音视觉说话人认证，Self-supervised learning for audio-visual speaker diarization

【北邮-腾讯AI】自监督学习音视觉说话人认证，Self-supervised learning for audio-visual speaker diarization

专知会员服务

26+阅读 · 2020年2月16日

可视化特征属性基线的影响，Visualizing the Impact of Feature Attribution Baselines

可视化特征属性基线的影响，Visualizing the Impact of Feature Attribution Baselines

专知会员服务

10+阅读 · 2020年1月16日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型中的检索与结构化增强生成综述

《实现多层防御多轮交战机制的扩展型随机齐射模型》2025年最新83页

【CMU博士论文】交互驱动的人体动作估计与生成

如何避免生成式人工智能在作战中失控失效

相关资讯

已删除

将门创投

3+阅读 · 2019年1月29日

相关论文

Protecting Intellectual Property of Generative Adversarial Networks from Ambiguity Attack

Arxiv

3+阅读 · 2021年3月1日

Deflecting Adversarial Attacks

Deflecting Adversarial Attacks

Arxiv

8+阅读 · 2020年2月18日

Robust Graph Neural Network Against Poisoning Attacks via Transfer Learning

Arxiv

6+阅读 · 2019年8月20日

Are Generative Classifiers More Robust to Adversarial Attacks?

Are Generative Classifiers More Robust to Adversarial Attacks?

Arxiv

4+阅读 · 2018年7月9日

Attacking Visual Language Grounding with Adversarial Examples: A Case Study on Neural Image Captioning

Arxiv

4+阅读 · 2018年5月22日

Reciprocal Attention Fusion for Visual Question Answering

Arxiv

5+阅读 · 2018年5月11日

Grad-CAM++: Generalized Gradient-based Visual Explanations for Deep Convolutional Networks

Arxiv

4+阅读 · 2018年5月8日

Saliency-Enhanced Robust Visual Tracking

Arxiv

6+阅读 · 2018年2月8日

Audio Adversarial Examples: Targeted Attacks on Speech-to-Text

Arxiv

18+阅读 · 2018年1月5日

Integrating both Visual and Audio Cues for Enhanced Video Caption

Arxiv

4+阅读 · 2017年12月9日

微信扫码咨询专知VIP会员