With the wide use of Automatic Speech Recognition (ASR) in applications such as human machine interaction, simultaneous interpretation, audio transcription, etc., its security protection becomes increasingly important. Although recent studies have brought to light the weaknesses of popular ASR systems that enable out-of-band signal attack, adversarial attack, etc., and further proposed various remedies (signal smoothing, adversarial training, etc.), a systematic understanding of ASR security (both attacks and defenses) is still missing, especially on how realistic such threats are and how general existing protection could be. In this paper, we present our systematization of knowledge for ASR security and provide a comprehensive taxonomy for existing work based on a modularized workflow. More importantly, we align the research in this domain with that on security in Image Recognition System (IRS), which has been extensively studied, using the domain knowledge in the latter to help understand where we stand in the former. Generally, both IRS and ASR are perceptual systems. Their similarities allow us to systematically study existing literature in ASR security based on the spectrum of attacks and defense solutions proposed for IRS, and pinpoint the directions of more advanced attacks and the directions potentially leading to more effective protection in ASR. In contrast, their differences, especially the complexity of ASR compared with IRS, help us learn unique challenges and opportunities in ASR security. Particularly, our experimental study shows that transfer learning across ASR models is feasible, even in the absence of knowledge about models (even their types) and training data.


翻译:由于在诸如人体机能互动、同声传译、音响抄录等应用中广泛使用自动语音识别(ASR),其安全保护变得日益重要。虽然最近的研究揭示出流行的ASR系统弱点,这些系统能够进行带外信号攻击、对抗性攻击等,并提出了各种补救措施(信号平滑、对抗性训练等),对ASR安全(攻击和防御)的系统理解仍然缺乏,特别是这种威胁如何现实,以及现有保护如何普遍。在本文件中,我们介绍了ASR安全知识的系统化,为基于模块化工作流程的现有工作提供了全面的分类。更重要的是,我们利用后者的域知识,将这一领域的研究与图像识别系统(IRS)的安全安全系统(IRS)中的系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化的系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统化系统

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
专知会员服务
38+阅读 · 2020年9月6日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
76+阅读 · 2020年7月26日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
【推荐】树莓派/OpenCV/dlib人脸定位/瞌睡检测
机器学习研究会
9+阅读 · 2017年10月24日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Arxiv
0+阅读 · 2021年5月17日
AutoML: A Survey of the State-of-the-Art
Arxiv
68+阅读 · 2019年8月14日
Arxiv
3+阅读 · 2018年6月19日
VIP会员
相关VIP内容
专知会员服务
38+阅读 · 2020年9月6日
Linux导论,Introduction to Linux,96页ppt
专知会员服务
76+阅读 · 2020年7月26日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
相关资讯
计算机 | CCF推荐期刊专刊信息5条
Call4Papers
3+阅读 · 2019年4月10日
Call for Participation: Shared Tasks in NLPCC 2019
中国计算机学会
5+阅读 · 2019年3月22日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
人工智能 | SCI期刊专刊信息3条
Call4Papers
5+阅读 · 2019年1月10日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
计算机类 | 期刊专刊截稿信息9条
Call4Papers
4+阅读 · 2018年1月26日
【推荐】树莓派/OpenCV/dlib人脸定位/瞌睡检测
机器学习研究会
9+阅读 · 2017年10月24日
【推荐】RNN/LSTM时序预测
机器学习研究会
25+阅读 · 2017年9月8日
Top
微信扫码咨询专知VIP会员