主题: A Review on Deep Learning Techniques for Video Prediction

摘要: 预测,预期和推理未来结果的能力是智能决策系统的关键组成部分。鉴于深度学习在计算机视觉中的成功,基于深度学习的视频预测已成为有前途的研究方向。视频预测被定义为一种自我监督的学习任务,它代表了一个表示学习的合适框架,因为它展示了提取自然视频中潜在模式的有意义的表示的潜在能力。视频序列预测的深度学习方法。我们首先定义视频预测的基础知识,以及强制性的背景概念和最常用的数据集。接下来,我们会仔细分析根据拟议的分类法组织的现有视频预测模型,突出显示它们的贡献及其在该领域的意义。数据集和方法的摘要均附有实验结果,有助于在定量基础上评估现有技术。通过得出一些一般性结论,确定开放研究挑战并指出未来的研究方向来对本文进行总结。

成为VIP会员查看完整内容
0
30

相关内容

机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

摘要

一个综合的人工智能系统不仅需要用不同的感官(如视觉和听觉)感知环境,还需要推断世界的条件(甚至因果)关系和相应的不确定性。在过去的十年里,我们看到了许多感知任务的重大进展,比如视觉对象识别和使用深度学习模型的语音识别。然而,对于更高层次的推理,具有贝叶斯特性的概率图模型仍然更加强大和灵活。近年来,贝叶斯深度学习作为一种将深度学习与贝叶斯模型紧密结合的统一的概率框架出现了。在这个总体框架中,利用深度学习对文本或图像的感知可以提高更高层次推理的性能,推理过程的反馈也可以增强文本或图像的感知。本文对贝叶斯深度学习进行了全面的介绍,并对其在推荐系统主题模型控制等方面的最新应用进行了综述。此外,我们还讨论了贝叶斯深度学习与其他相关课题如神经网络的贝叶斯处理之间的关系和区别。

介绍

在过去的十年中,深度学习在许多流行的感知任务中取得了显著的成功,包括视觉对象识别、文本理解和语音识别。这些任务对应于人工智能(AI)系统的看、读、听能力,它们无疑是人工智能有效感知环境所必不可少的。然而,要建立一个实用的、全面的人工智能系统,仅仅有感知能力是远远不够的。首先,它应该具备思维能力。

一个典型的例子是医学诊断,它远远超出了简单的感知:除了看到可见的症状(或CT上的医学图像)和听到患者的描述,医生还必须寻找所有症状之间的关系,最好推断出它们的病因。只有在那之后,医生才能给病人提供医疗建议。在这个例子中,虽然视觉和听觉的能力让医生能够从病人那里获得信息,但医生的思维能力才是关键。具体来说,这里的思维能力包括识别条件依赖、因果推理、逻辑演绎、处理不确定性等,显然超出了传统深度学习方法的能力。幸运的是,另一种机器学习范式,概率图形模型(PGM),在概率或因果推理和处理不确定性方面表现出色。问题在于,PGM在感知任务上不如深度学习模型好,而感知任务通常涉及大规模和高维信号(如图像和视频)。为了解决这个问题,将深度学习和PGM统一到一个有原则的概率框架中是一个自然的选择,在本文中我们称之为贝叶斯深度学习(BDL)。 在上面的例子中,感知任务包括感知病人的症状(例如,通过看到医学图像),而推理任务包括处理条件依赖性、因果推理、逻辑推理和不确定性。通过贝叶斯深度学习中有原则的整合,将感知任务和推理任务视为一个整体,可以相互借鉴。具体来说,能够看到医学图像有助于医生的诊断和推断。另一方面,诊断和推断反过来有助于理解医学图像。假设医生可能不确定医学图像中的黑点是什么,但如果她能够推断出症状和疾病的病因,就可以帮助她更好地判断黑点是不是肿瘤。 再以推荐系统为例。一个高精度的推荐系统需要(1)深入了解条目内容(如文档和电影中的内容),(2)仔细分析用户档案/偏好,(3)正确评价用户之间的相似度。深度学习的能力有效地处理密集的高维数据,如电影内容擅长第一子任务,而PGM专攻建模条件用户之间的依赖关系,项目和评分(参见图7为例,u, v,和R是用户潜在的向量,项目潜在的向量,和评级,分别)擅长其他两个。因此,将两者统一在一个统一的概率原则框架中,可以使我们在两个世界中都得到最好的结果。这种集成还带来了额外的好处,可以优雅地处理推荐过程中的不确定性。更重要的是,我们还可以推导出具体模型的贝叶斯处理方法,从而得到更具有鲁棒性的预测。

作为第三个例子,考虑根据从摄像机接收到的实时视频流来控制一个复杂的动态系统。该问题可以转化为迭代执行两项任务:对原始图像的感知和基于动态模型的控制。处理原始图像的感知任务可以通过深度学习来处理,而控制任务通常需要更复杂的模型,如隐马尔科夫模型和卡尔曼滤波器。由控制模型选择的动作可以依次影响接收的视频流,从而完成反馈回路。为了在感知任务和控制任务之间实现有效的迭代过程,我们需要信息在它们之间来回流动。感知组件将是控制组件估计其状态的基础,而带有动态模型的控制组件将能够预测未来的轨迹(图像)。因此,贝叶斯深度学习是解决这一问题的合适选择。值得注意的是,与推荐系统的例子类似,来自原始图像的噪声和控制过程中的不确定性都可以在这样的概率框架下自然地处理。 以上例子说明了BDL作为一种统一深度学习和PGM的原则方式的主要优势:感知任务与推理任务之间的信息交换、对高维数据的条件依赖以及对不确定性的有效建模。关于不确定性,值得注意的是,当BDL应用于复杂任务时,需要考虑三种参数不确定性:

  1. 神经网络参数的不确定性
  2. 指定任务参数的不确定性
  3. 感知组件和指定任务组件之间信息交换的不确定性

通过使用分布代替点估计来表示未知参数,BDL提供了一个很有前途的框架,以统一的方式处理这三种不确定性。值得注意的是,第三种不确定性只能在BDL这样的统一框架下处理;分别训练感知部分和任务特定部分相当于假设它们之间交换信息时没有不确定性。注意,神经网络通常是过参数化的,因此在有效处理如此大的参数空间中的不确定性时提出了额外的挑战。另一方面,图形模型往往更简洁,参数空间更小,提供了更好的可解释性。

除了上述优点之外,BDL内建的隐式正则化还带来了另一个好处。通过在隐藏单元、定义神经网络的参数或指定条件依赖性的模型参数上施加先验,BDL可以在一定程度上避免过拟合,尤其是在数据不足的情况下。通常,BDL模型由两个组件组成,一个是感知组件,它是某种类型神经网络的贝叶斯公式,另一个是任务特定组件,使用PGM描述不同隐藏或观察变量之间的关系。正则化对它们都很重要。神经网络通常过度参数化,因此需要适当地正则化。正则化技术如权值衰减和丢失被证明是有效地改善神经网络的性能,他们都有贝叶斯解释。在任务特定组件方面,专家知识或先验信息作为一种正规化,可以在数据缺乏时通过施加先验来指导模型。 在将BDL应用于实际任务时,也存在一些挑战。(1)首先,设计一个具有合理时间复杂度的高效的神经网络贝叶斯公式并非易事。这一行是由[42,72,80]开创的,但是由于缺乏可伸缩性,它没有被广泛采用。幸运的是,这个方向的一些最新进展似乎为贝叶斯神经网络的实际应用提供了一些启示。(2)第二个挑战是如何确保感知组件和任务特定组件之间有效的信息交换。理想情况下,一阶和二阶信息(例如,平均值和方差)应该能够在两个组件之间来回流动。一种自然的方法是将感知组件表示为PGM,并将其与特定任务的PGM无缝连接,如[24,118,121]中所做的那样。 本综述提供了对BDL的全面概述,以及各种应用程序的具体模型。综述的其余部分组织如下:在第2节中,我们将回顾一些基本的深度学习模型。第3节介绍PGM的主要概念和技术。这两部分作为BDL的基础,下一节第4节将演示统一BDL框架的基本原理,并详细说明实现其感知组件和特定于任务的组件的各种选择。第5节回顾了应用于不同领域的BDL模型,如推荐系统、主题模型和控制,分别展示了BDL在监督学习、非监督学习和一般表示学习中的工作方式。第6部分讨论了未来的研究问题,并对全文进行了总结。

结论和未来工作

BDL致力于将PGM和NN的优点有机地整合在一个原则概率框架中。在这项综述中,我们确定了这种趋势,并回顾了最近的工作。BDL模型由感知组件和任务特定组件组成;因此,我们分别描述了过去几年开发的两个组件的不同实例,并详细讨论了不同的变体。为了学习BDL中的参数,人们提出了从块坐标下降、贝叶斯条件密度滤波、随机梯度恒温器到随机梯度变分贝叶斯等多种类型的算法。 BDL从PGM的成功和最近在深度学习方面有前景的进展中获得了灵感和人气。由于许多现实世界的任务既涉及高维信号(如图像和视频)的有效感知,又涉及随机变量的概率推理,因此BDL成为利用神经网络的感知能力和PGM的(条件和因果)推理能力的自然选择。在过去的几年中,BDL在推荐系统、主题模型、随机最优控制、计算机视觉、自然语言处理、医疗保健等各个领域都有成功的应用。在未来,我们不仅可以对现有的应用进行更深入的研究,还可以对更复杂的任务进行探索。此外,最近在高效BNN (BDL的感知组件)方面的进展也为进一步提高BDL的可扩展性奠定了基础。

成为VIP会员查看完整内容
0
129

本文综述了元学习在图像分类、自然语言处理和机器人技术等领域的应用。与深度学习不同,元学习使用较少的样本数据集,并考虑进一步改进模型泛化以获得更高的预测精度。我们将元学习模型归纳为三类: 黑箱适应模型、基于相似度的方法模型和元学习过程模型。最近的应用集中在将元学习与贝叶斯深度学习和强化学习相结合,以提供可行的集成问题解决方案。介绍了元学习方法的性能比较,并讨论了今后的研究方向。

成为VIP会员查看完整内容
0
169

主题: Comprehensive Review of Deep Reinforcement Learning Methods and Applicationsin Economic

摘要: 深度强化学习(DRL)方法在经济学中的应用已成倍增加。 DRL通过从强化学习(RL)和深度学习(DL)的广泛功能来处理复杂的动态业务环境提供了广阔的机遇。 DRL的特点是可伸缩性,它有可能结合经济数据的噪声和非线性模式应用于高维问题。在这项工作中,我们首先考虑对经济学中各种应用中的DL,RL和深层RL方法进行简要回顾,以提供对最新技术水平的深入了解。此外,研究了应用于经济应用的DRL体系结构,以突出其复杂性,鲁棒性,准确性,性能,计算任务,风险约束和获利能力。调查结果表明,与传统算法相比,DRL可以提供更好的性能和更高的精度,同时在存在风险参数和不确定性不断增加的情况下面临实际的经济问题。

成为VIP会员查看完整内容
0
28

主题: Deep Learning on Knowledge Graph for Recommender System: A Survey

摘要: 最近的研究表明,知识图谱(KG)在提供有价值的外部知识以改进推荐系统(RS)方面是有效的。知识图谱能够编码连接两个对象和一个或多个相关属性的高阶关系。借助于新兴的GNN,可以从KG中提取对象特征和关系,这是成功推荐的一个重要因素。本文对基于GNN的知识感知深度推荐系统进行了综述。具体来说,我们讨论了最新的框架,重点是它们的核心组件,即图嵌入模块,以及它们如何解决实际的推荐问题,如可伸缩性、冷启动等。我们进一步总结了常用的基准数据集、评估指标以及开源代码。最后,我们对调查结果进行了总结,并提出了这一快速发展领域的潜在研究方向。

成为VIP会员查看完整内容
0
88

题目:

Transformation-based Adversarial Video Prediction on Large-Scale Data

简介:

对抗式生成建模技术的最新突破使模型能够生成高质量的视频样本,即使是在大型和复杂的真实视频集上也是如此。在这项工作中,我们专注于视频预测的任务,其中给定了从视频中提取的帧序列,目标是生成合理的未来序列。我们首先通过对鉴别器分解进行系统的经验研究并提出一种比以前的方法产生更快的收敛性和更高性能的体系结构来改善现有技术。然后,我们分析生成器中的循环单元,并提出一种新颖的循环单元,该单元根据预测的类似运动的特征转换其过去的隐藏状态,并对其进行优化以处理遮挡,场景更改和其他复杂行为。我们表明,该循环装置始终优于以前的设计。最终模型导致了最先进性能的飞跃,在大规模Kinetics-600数据集上获得的测试集Frechet´视频距离从69.2降低到25.7。

成为VIP会员查看完整内容
0
11

题目: Self-supervised Visual Feature Learning with Deep Neural Networks: A Survey

摘要: 为了在计算机视觉应用中从图像或视频中获得更好的视觉特征学习性能,通常需要大规模的标记数据来训练深度神经网络。为了避免大规模数据集收集和标注的大量开销,作为无监督学习方法的一个子集,提出了一种自监督学习方法,在不使用任何人类标注的标签的情况下,从大规模无标记数据中学习图像和视频的一般特征。本文对基于深度学习的自监督一般视觉特征学习方法进行了广泛的综述。首先,描述了该领域的动机、通用管道和术语。在此基础上,总结了常用的用于自监督学习的深度神经网络体系结构。接下来,回顾了自监督学习方法的模式和评价指标,然后介绍了常用的图像和视频数据集以及现有的自监督视觉特征学习方法。最后,总结和讨论了基于基准数据集的定量性能比较方法在图像和视频特征学习中的应用。最后,对本文的研究进行了总结,并提出了一套具有发展前景的自监督视觉特征学习方法。

成为VIP会员查看完整内容
0
67

题目: The Deep Learning Compiler: A Comprehensive Survey

摘要: 在不同的DL硬件上部署各种深度学习(deep learning,DL)模型的困难,推动了DL编译器在社区中的研究和开发。业界和学术界都提出了一些DL编译器,如Tensorflow XLA和TVM。类似地,DL编译器将不同DL框架中描述的DL模型作为输入,然后为不同的DL硬件生成优化代码作为输出。然而,现有的调查没有全面分析DL编译器的独特设计。在本文中,我们对现有DL编译器进行了全面的调查,通过对常用设计的详细剖析,着重介绍了面向DL的多级IRS,以及前端/后端优化。具体来说,我们提供了一个全面的比较现有的DL编译器从各个方面。此外,我们还详细分析了多级IR设计和编译器优化技术。最后,提出了DL编译器潜在的研究方向。这是第一篇针对DL编译器独特设计的综述性论文,希望能为以后的研究铺平道路。

成为VIP会员查看完整内容
0
22

简介:

深度学习技术在图像降噪方面获得了极大的关注。但是,处理噪声的不同类型的学习方法有很大的差异。具体来说,基于深度学习的判别式学习可以很好地解决高斯噪声。基于深度学习的优化模型方法对真实噪声的估计有很好的效果。迄今为止,很少有相关研究来总结用于图像去噪的不同深度学习技术。在本文中,作者对图像去噪中不同深度技术进行了比较研究。我们首先对(1)用于加白噪声图像的深卷积神经网络(CNN),(2)用于真实噪声图像的深CNN,(3)用于盲目去噪的深CNN和(4)用于混合噪声图像的深CNN进行分类,这是噪声,模糊和低分辨率图像的组合。然后,又分析了不同类型的深度学习方法的动机和原理。接下来,将在定量和定性分析方面比较和验证公共去噪数据集的最新方法。最后,论文指出了一些潜在的挑战和未来研究的方向。

简要内容:

图像去噪的深度学习方法的基础框架:

  • 机器学习方法
  • 神经网络方法
  • 卷积神经网络方法

图像去噪中的深度学习技术:

  • 用于加白噪声图像的深卷积神经网络
  • 深度学习技术可实现真正的噪点图像降噪
  • 盲降噪的深度学习技术
  • 深度学习技术用于混合噪声图像去噪
成为VIP会员查看完整内容
0
46

题目: Deep Learning for Visual Tracking: A Comprehensive Survey

简介: 视觉目标跟踪是计算机视觉领域中最受关注和最具挑战性的研究课题之一。考虑到这个问题的不适定性质及其在现实世界中广泛应用的情况,已经建立了大量的大型基准数据集,在这些数据集上已经开发了相当多的方法,并在近年来取得了显著进展——主要是最近基于深度学习(DL)的方法。这项综述的目的是系统地调查当前基于深度学习的视觉跟踪方法、基准数据集和评估指标。它也广泛地评价和分析领先的视觉跟踪方法。首先,从网络体系结构、网络利用、视觉跟踪网络训练、网络目标、网络输出、相关滤波优势利用六个关键方面,总结了基于dll的方法的基本特征、主要动机和贡献。其次,比较了常用的视觉跟踪基准及其各自的性能,总结了它们的评价指标。第三,在OTB2013、OTB2015、VOT2018和LaSOT等一系列成熟的基准上,全面检查最先进的基于dll的方法。最后,通过对这些最先进的方法进行定量和定性的批判性分析,研究它们在各种常见场景下的优缺点。它可以作为一个温和的使用指南,让从业者在什么时候、在什么条件下选择哪种方法。它还促进了对正在进行的问题的讨论,并为有希望的研究方向带来光明。

成为VIP会员查看完整内容
Deep_Learning_for_Visual_Tracking.pdf
0
41

论文主题: Recent Advances in Deep Learning for Object Detection

论文摘要: 目标检测是计算机视觉中的基本视觉识别问题,并且在过去的几十年中已得到广泛研究。目标检测指的是在给定图像中找到具有精确定位的特定目标,并为每个目标分配一个对应的类标签。由于基于深度学习的图像分类取得了巨大的成功,因此近年来已经积极研究了使用深度学习的对象检测技术。在本文中,我们对深度学习中视觉对象检测的最新进展进行了全面的调查。通过复习文献中最近的大量相关工作,我们系统地分析了现有的目标检测框架并将调查分为三个主要部分:(i)检测组件,(ii)学习策略(iii)应用程序和基准。在调查中,我们详细介绍了影响检测性能的各种因素,例如检测器体系结构,功能学习,建议生成,采样策略等。最后,我们讨论了一些未来的方向,以促进和刺激未来的视觉对象检测研究。与深度学习。

成为VIP会员查看完整内容
0
63
小贴士
相关VIP内容
专知会员服务
169+阅读 · 2020年5月8日
相关论文
A Survey on Bayesian Deep Learning
Hao Wang,Dit-Yan Yeung
42+阅读 · 2020年7月2日
Ziwei Zhang,Peng Cui,Wenwu Zhu
39+阅读 · 2018年12月11日
Chi Nhan Duong,Khoa Luu,Kha Gia Quach,Nghia Nguyen,Eric Patterson,Tien D. Bui,Ngan Le
3+阅读 · 2018年11月27日
Borja Ibarz,Jan Leike,Tobias Pohlen,Geoffrey Irving,Shane Legg,Dario Amodei
4+阅读 · 2018年11月15日
Image Captioning based on Deep Reinforcement Learning
Haichao Shi,Peng Li,Bo Wang,Zhenyu Wang
7+阅读 · 2018年9月13日
Antoine J. -P. Tixier
10+阅读 · 2018年8月30日
CIRL: Controllable Imitative Reinforcement Learning for Vision-based Self-driving
Xiaodan Liang,Tairui Wang,Luona Yang,Eric Xing
4+阅读 · 2018年7月10日
Sergey Edunov,Myle Ott,Michael Auli,David Grangier,Marc'Aurelio Ranzato
6+阅读 · 2018年5月24日
Zhang-Wei Hong,Chen Yu-Ming,Shih-Yang Su,Tzu-Yun Shann,Yi-Hsiang Chang,Hsuan-Kung Yang,Brian Hsi-Lin Ho,Chih-Chieh Tu,Yueh-Chuan Chang,Tsu-Ching Hsiao,Hsin-Wei Hsiao,Sih-Pin Lai,Chun-Yi Lee
4+阅读 · 2018年4月29日
Zuxuan Wu,Ting Yao,Yanwei Fu,Yu-Gang Jiang
8+阅读 · 2018年2月22日
Top