Hey Siri，帮我把这个boss打一下：基于音频的游戏代理探索

会员服务 ·

Hey Siri，帮我把这个boss打一下：基于音频的游戏代理探索 | 一周AI最火论文

2019 年 6 月 17 日 大数据文摘

大数据文摘专栏作品

作者：Christopher Dossman

编译：笪洁琼、fuma、云舟

呜啦啦啦啦啦啦啦大家好，本周的AIScholar Weekly栏目又和大家见面啦！

AI ScholarWeekly是AI领域的学术专栏，致力于为你带来最新潮、最全面、最深度的AI学术概览，一网打尽每周AI学术的前沿资讯。

每周更新，做AI科研，每周从这一篇开始就够啦！

本周关键词：音频生成模型、端到端的音视频语音识别、张量计算

本周热门学术研究

地表最强语音活动检测（rVAD）

为了开发用于语音活动检测的强大算法，研究人员设计了rVAD。新方法先使用了两个去噪通道，然后再添加语音活动检测（VAD）算法。

第一遍检测涉及语音信号中的高能段，其通过使用后验信噪比（SNR）加权能量差来检测。如果在段内没有检测到音调，则将其视为高能噪声段并设置为零。

在第二遍检测中，该方法通过语音增强对语音信号进行去噪。该方法进一步评估了RedDots 2016挑战数据库中的数据以验证性能。结果证明了rVAD相比传统方法具有竞争力。

我们都需要更好、更有效的AI算法。更精确的VAD方法有助于AI社区实现性能更好的语音通信系统。谈话语音识别，语音编码，说话人识别，回声消除，音频会议，免提电话等应用均可从中获益。

这一研究还提出了rVAD方法的修改版本（rVAD-fast），它显著降低了计算复杂性，并给予了算法在处理大量数据和运行于资源受限设备上时的优势。

原文：

https://arxiv.org/abs/1906.03588

学习从音频提示中玩电子游戏

Game AI Research Group已经在现有代理（和基于视觉的游戏）的现有框架内开发了一个音频游戏API。该研究是聚焦于训练游戏代理仅通过音频线索玩电子游戏的初步实验。

研究人员扩展了视频游戏描述语言，引入了音频的描述规范，并且使用通用视频游戏AI框架（General Video Game AI Framework）提供新的音频游戏和API，以训练代理利用音频进行观察。他们分析了游戏和音频游戏的设计过程，并使用简单的QLearning代理得到了初始结果。

这一研究提供了游戏中的背景音频分析。研究的结果可以与其他方法结合使用，以最大化传感器使用，并获得卓越的游戏音频性能。这项工作提出了许多新的研究方向。人工智能社区可以在该领域做进一步的研究。

例如，可以进一步分析声音以创建适当的响应。它们也可以帮助确定特定声音的含义。此外，通过观察某些特定的声音如何影响代理性能以及如何被删除，可以提高工作质量。

原文：

https://arxiv.org/abs/1906.04027

组会又睡过去了？ BERT帮你提取讲座的文本摘要

最近，通过深度学习方法的机器学习已经证明通过聚类输出嵌入可以有效地进行提取总结。这项研究工作主要使用深度学习技术和基于python的RESTful讲座摘要服务。该服务利用BERT模型进行文本嵌入和KMeans聚类，从而能够识别关闭到质心的句子并进行摘要选择。

这一工作的目的是为学生提供一种服务，可以根据他们想要的句子数量来总结讲座内容。该服务还包括讲座和摘要管理，可以在云上存储和协作。

除文档摘要外，该技术还可广泛应用于搜索引擎，图像和视频集等领域。研究结果非常有希望实现动态提取讲座摘要，但仍有改进的余地。

代码：

https://github.com/dmmiller612/lecture-summarizer

原文：

https://arxiv.org/abs/1906.04165

基于动态词汇表的词级语音识别

Facebook人工智能研究（小组）提出了一种带有动态词汇表的直接到词的词序列模型。该模型从字符标记中动态构建单词嵌入，可以与任意序列模型无缝集成，包括连接型时间分类模型和注意力编码-解码模型。

该算法还可以在语音识别子词级模型的基础上实现单词错误率的降低。此外，研究人员还证实，我们所学习的词级嵌入包含重要的声学信息，这使得它们更适合用于语音识别。这种新的直接对单词的方法，具有预测训练时没有出现的单词的能力，并且不需要重新训练。

直接预测单词的能力对于实现更简单、更鲁棒的端到端自动语音识别(ASR)系统并同时实现超高的准确性和效率将具有重要的意义。

原文：

https://arxiv.org/abs/1906.04323

基于自注意力的音乐标签深层序列模型

卷积递归神经网络(CRNN)目前在文档分类、图像分类、音乐转录以及自动音乐标签等方面都非常成功。研究人员现在提出了一个基于自注意力的音乐标签深层序列模型。

该模型由浅卷积层和堆叠迁移编码器组成。与使用完全卷积或递归神经网络的传统方法相比，新的体系结构更具解释性。使用MagnaTagATune和Million Song数据集（自动音乐标记研究数据集）对模型进行评估，可以得到具有竞争力的结果。该模型还演示了标签贡献可视化热图的可解释性。

这一模型获得了更好的可解释性，从而获得更好的直觉以进行模型设计。而且，由于提出的架构不是特定于任务的，因此可以扩展到其他MIR任务，包括节拍检测、节奏分类或音乐转录等。

详细代码请见：

https://github.com/minzwon/self-attention-music-tagging

原文：

https://arxiv.org/abs/1906.04972

其他爆款论文

新的姿态估计方法，可以帮助设计机器人系统，具有与不属于预先定义类别的野外新对象交互的能力：

https://arxiv.org/abs/1906.05105

可区分的射影算子，可用于PrGAN学习更好的三维生成模型：

https://arxiv.org/abs/1906.04910

社会人工智能数据集发布，通过计算的方法帮助理解人类社会互动：

https://arxiv.org/abs/1906.04158

生成模型如何能够捕获多个样本上的分布，并使用采样生成各种样本：

https://arxiv.org/pdf/1906.04233.pdf

研究人员利用可变嵌入容量进行鲁棒语音合成：

https://arxiv.org/abs/1906.03402

AI新闻

人工智能可否帮助人们更清楚地了解社会以及如何影响自然世界?

https://www.forbes.com/

专栏作者介绍

Christopher Dossman是Wonder Technologies的首席数据科学家，在北京生活5年。他是深度学习系统部署方面的专家，在开发新的AI产品方面拥有丰富的经验。除了卓越的工程经验，他还教授了1000名学生了解深度学习基础。

LinkedIn：

https：//www.linkedin.com/in/christopherdossman/

志愿者介绍

后台回复“志愿者”加入我们

点「在看」的人都变好看了哦

登录查看更多

相关内容

语音信号

关注 6

语音信号处理是目前发展最为迅速的信息科学研究领域中的一个，是目前极为活跃和热门的研究领域，其研究成果具有重要的学术及应用价值。语音信号处理的研究，对于机器语言、语音识别、语音合成等领域都具有很大的意义。

【经典书】人工智能及机器学习导论，457页pdf

专知会员服务

157+阅读 · 2020年7月5日

TextCNN作者Kim哈佛大学杰出博士论文《自然语言的深度潜变量模型》，185页pdf，Kim将到MIT任助理教授

专知会员服务

71+阅读 · 2020年6月10日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

112+阅读 · 2020年5月18日

【经典书】机器学习高斯过程，266页pdf

专知会员服务

192+阅读 · 2020年5月2日

最新《经济学中的强化学习》2020大综述，42页pdf128篇文献

专知会员服务

114+阅读 · 2020年4月6日

【Google Research】Wavesplit:通过说话者聚类实现端到端的语音分离，Wavesplit: End-to-End Speech Separation by Speaker Clustering

专知会员服务

18+阅读 · 2020年2月26日

【新书】Python强化学习-基于Tensorflow与Keras和OpenAI Gym实战, 177页pdf

专知会员服务

176+阅读 · 2020年1月17日

2019必读的十大深度强化学习论文

专知会员服务

57+阅读 · 2020年1月16日

慕尼黑大学LMU博士论文：自然语言文本神经网络信息提取，240页pdf

专知会员服务

73+阅读 · 2020年1月13日

【论文推荐中科院自动化所】视频游戏中深度强化学习的研究综述，A Survey of Deep Reinforcement Learning in Video

专知会员服务

46+阅读 · 2019年12月24日

真实 VS 合成，我们需要的真实数据微乎其微？| 一周最火AI论文

大数据文摘

3+阅读 · 2019年7月23日

新研究起底人类和机器注意力机制的区别|一周AI最火论文

大数据文摘

4+阅读 · 2019年7月2日

SFFAI 31 报名通知 | 情感语音识别与合成

人工智能前沿讲习班

17+阅读 · 2019年5月30日

利用上下文常识，让AI读懂不完整人类指令 | 一周AI最火论文

大数据文摘

12+阅读 · 2019年5月6日

Google Brain推出语音识别新技术、面部表情识别助力商业再发展|AI一周学术

大数据文摘

4+阅读 · 2019年4月29日

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

AI前线

10+阅读 · 2019年4月28日

不“丢脸”实现人脸识别，使用TiFGAN合成音频 | AI Scholar Weekly

大数据文摘

5+阅读 · 2019年2月18日

王源也推荐！“读诗成曲”游戏火了，思必驰揭秘背后技术

量子位

4+阅读 · 2019年1月29日

微软研究院开源项目TextWorld：可用于强化学习训练的文本游戏

专知

5+阅读 · 2018年8月11日

业界 | Facebook开源TTS神经网络VoiceLoop：基于室外声音的语音合成（附PyTorch实现）

机器之心

4+阅读 · 2017年9月5日

WaveTTS: Tacotron-based TTS with Joint Time-Frequency Domain Loss

Arxiv

3+阅读 · 2020年4月6日

Towards a Human-like Open-Domain Chatbot

Arxiv

14+阅读 · 2020年1月27日

SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

Arxiv

7+阅读 · 2019年4月18日

Long-tail Relation Extraction via Knowledge Graph Embeddings and Graph Convolution Networks

Arxiv

8+阅读 · 2019年3月4日

Music Transformer

Arxiv

5+阅读 · 2018年12月12日

Relational Deep Reinforcement Learning

Arxiv

5+阅读 · 2018年6月5日

Decoupled Novel Object Captioner

Arxiv

7+阅读 · 2018年4月11日

Fine-Grained Attention Mechanism for Neural Machine Translation

Arxiv

4+阅读 · 2018年4月3日

Generating Wikipedia by Summarizing Long Sequences

Arxiv

7+阅读 · 2018年1月30日

Language Modeling with Gated Convolutional Networks

Arxiv

5+阅读 · 2017年9月8日

VIP会员