We focus on the word-level visual lipreading, which requires to decode the word from the speaker's video. Recently, many state-of-the-art visual lipreading methods explore the end-to-end trainable deep models, involving the use of 2D convolutional networks (e.g., ResNet) as the front-end visual feature extractor and the sequential model (e.g., Bi-LSTM or Bi-GRU) as the back-end. Although a deep 2D convolution neural network can provide informative image-based features, it ignores the temporal motion existing between the adjacent frames. In this work, we investigate the spatial-temporal capacity power of I3D (Inflated 3D ConvNet) for visual lipreading. We demonstrate that, after pre-trained on the large-scale video action recognition dataset (e.g., Kinetics), our models show a considerable improvement of performance on the task of lipreading. A comparison between a set of video model architectures and input data representation is also reported. Our extensive experiments on LRW shows that a two-stream I3D model with RGB video and optical flow as the inputs achieves the state-of-the-art performance.

点赞 0
阅读2+
深度学习—从算法到实战,涵盖深度学习算法和应用实例,包括计算机视觉的目标检测、图像生成,自然语言处理的文本自动摘要等,帮助学员了解、理解、掌握深度学习的基础和前沿算法,并拥有深度学习算法实战经验。本课程由完整全面、脉络清晰的深度学习核心算法入门,到当前学界、工业界热门的深度学习应用实战,有效提高学生解决实际问题的能力。通过学习本课程,学员可以:掌握深度学习核心算法技术;掌握面向不用场景任务的深度学习应用技术;熟悉各种不同深度神经网络的拓扑结构及应用;熟悉前沿深度学习强化学习等热点技术,把握深度学习的技术发展趋势;提升解决深度学习实际问题的能力。 本次课程由专知团队携人工智能领域一线教授博士精心制作,重磅推出!这是一次毫无保留的传授与交流,人工智能未来已来,学习永不止步。希望能与各位一起迎接2019,共同成长。 https://study.163.com/course/introduction/1006498024.htm
登录查看的更多。 返回顶部
本周荟萃主题
深度学习
机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。
机器学习
“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让 可以自动“ 学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多 推论问题属于 无程序可循难度,所以部分的机器学习研究是开发容易处理的近似算法。”

——中文维基百科
强化学习
强化学习 (Reinforcement learning) 是受到行为心理学启发,机器学习中研究个体 (agent) 如何在环境中采取行动以最大化奖赏 (reward) 的领域。

这一问题由于其普遍性,在许多领域中都有研究,例如博弈论,控制论,运筹学,信息论,等等。
信息推荐
信息推荐,是指根据用户的习惯、偏好或兴趣,从不断到来的大规模信息中识别满足用户兴趣的信息的过程。信息推荐任务中的信息往往称为物品(Item)。根据具体应用背景的不同,这些物品可以是新闻、电影、音乐、广告、商品等各种对象。俗称推荐系统。
卷积神经网络

卷积神经网络是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,[1]对于大型图像处理有出色表现。
机器翻译
机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
计算机视觉
计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。
图像识别
从图像中提取出有意义、有实用价值的信息。
知识图谱
中文知识图谱(Chinese Knowledge Graph),最早起源于Google Knowledge Graph。知识图谱本质上是一种语义 网络。其结点代表实体(entity)或者概念(concept),边代表实体/概念之间的各种语义关系。