本文提供了针对视觉识别的单类别分类OCC的经典统计和基于深度学习的最新方法的全面调研。详细并讨论了现有OCC方法的优缺点,还介绍了OCC的常用数据集和评估指标。

单类别分类(One-Class Classification,OCC)是多类别分类的一种特殊情况,其中训练期间观察到的数据来自单个阳性类。OCC的目标是学习一种表示法和/或一个分类器,该分类器和/或分类器可以在推理过程中识别正标记的查询。近年来,这个主题在计算机视觉,机器学习和生物特征学领域引起了相当大的兴趣。在本文中,我们提供了针对视觉识别的经典统计和基于深度学习的最新OCC方法的调查。我们讨论了现有OCC方法的优缺点,并确定了该领域研究的有希望的途径。此外,我们还讨论了OCC的常用数据集和评估指标。

https://www.zhuanzhi.ai/paper/65b2f00c35574ec550abefa501485937

成为VIP会员查看完整内容
0
9

相关内容

人体姿态估计的目的是通过图像、视频等输入数据定位人体部位,构建人体表征(如人体骨架)。在过去的十年中,它受到了越来越多的关注,并被广泛应用于人机交互、运动分析、增强现实和虚拟现实等领域。尽管最近开发的基于深度学习的解决方案在人体姿态估计方面取得了很高的性能,但由于训练数据不足、深度模糊和遮挡,仍然存在挑战。本综述论文的目的是通过对基于输入数据和推理的解决方案进行系统的分析和比较,对最近基于深度学习的二维和三维姿态估计解决方案进行全面的回顾。这项综述涵盖了自2014年以来的240多篇研究论文。此外,还包括了二维和三维人体姿态估计数据集和评估指标。本文总结和讨论了现有方法在流行数据集上的定量性能比较。最后,对所涉及的挑战、应用和未来的研究方向进行了总结。

https://www.zhuanzhi.ai/paper/7459265d2fbd81f9b91bf0f7b461bcc7

成为VIP会员查看完整内容
0
18

序列标记是一个基础性研究问题,涉及词性标记、命名实体识别、文本分块等多种任务。尽管在许多下游应用(如信息检索、问题回答和知识图谱嵌入)中普遍和有效,传统的序列标记方法严重依赖于手工制作或特定语言的特征。最近,深度学习已经被用于序列标记任务,因为它在自动学习实例的复杂特征和有效地产生艺术表现的强大能力。在本文中,我们旨在全面回顾现有的基于深度学习的序列标记模型,这些模型包括三个相关的任务,如词性标记、命名实体识别和文本组块。然后,在科学分类的基础上,结合SL领域中广泛使用的实验数据集和常用的评价指标,系统地介绍了现有的方法。此外,我们还对不同的SL模型进行了深入分析,分析了可能影响SL领域性能和未来发展方向的因素。

https://arxiv.org/abs/2011.06727

序列标记是自然语言处理(NLP)中重要的一种模式识别任务。从语言学的角度来看,语言中最小的意义单位通常被认为是语素,因此每句话都可以看作是语素构成的序列。相应的,NLP领域中的序列标记问题可以将其表述为一种任务,目的是为一类在句子语法结构中通常具有相似角色和相似语法属性的语素分配标签,所分配标签的意义通常取决于特定任务的类型,经典任务的例子有词性标注[71]、命名实体识别(NER)[52]、文本分块[65]等,在自然语言理解中起着至关重要的作用,有利于各种下游应用,如句法解析[81]、关系提取[64]和实体共指解析[78]等,并因此迅速得到广泛关注。

通常,传统的序列标记方法通常基于经典的机器学习技术,如隐马尔科夫模型(HMM)[3]和条件随机字段(CRFs)[51],这些技术通常严重依赖于手工制作的特征(如一个单词是否大写)或特定于语言的资源(如地名词典)。尽管实现了卓越的性能,但对大量领域知识的需求和对特征工程的努力使得它们极难扩展到新的领域。在过去的十年中,深度学习(DL)由于其在自动学习复杂数据特征方面的强大能力而取得了巨大的成功。因此,对于如何利用深度神经网络的表示学习能力来增强序列标记任务的研究已经有了很多,其中很多方法已经陆续取得了[8],[1],[19]的先进性能。这一趋势促使我们对深度学习技术在序列标记领域的现状进行了全面的综述。通过比较不同深度学习架构的选择,我们的目标是识别对模型性能的影响,以便后续研究人员更好地了解这些模型的优缺点。

本综述的目的是全面回顾深度学习在序列标记(SL)领域的最新应用技术,并提供一个全景,以启发和指导SL研究社区的研究人员和从业者快速理解和进入该领域。具体来说,我们对基于深度学习的SL技术进行了全面的调研,并按照嵌入模块、上下文编码器模块和推理模块三个轴进行了科学的分类,系统地总结了目前的研究现状。此外,我们还概述了序列标记领域中常用任务的实验设置(即数据集或评价指标)。此外,我们讨论和比较了最具代表性的模型给出的结果,以分析不同因素和建筑的影响。最后,我们向读者展示了当前基于dll的序列标记方法所面临的挑战和开放问题,并概述了该领域的未来发展方向。

本综述旨在全面回顾深度学习技术在序列标注中的应用,并提供一个全景视图,以便读者对这一领域有一个全面的了解。我们以科学的分类学对文献进行了总结。此外,我们提供了一般研究的序列标记问题的数据集和评价指标的概述。此外,我们还讨论和比较了不同模型的结果,并分析了影响性能的因素和不同架构。最后,我们向读者展示了当前方法面临的挑战和开放问题,并确定了该领域的未来方向。我们希望这项调查能对序列标记感兴趣的研究者、从业者和教育者有所启发和指导。

成为VIP会员查看完整内容
0
22

The Elements of End-to-end Deep Face Recognition: A Survey of Recent Advances

人脸识别是计算机视觉领域中最基本、最长期存在的研究课题之一。随着深度卷积神经网络和大规模数据集的发展,深度人脸识别取得了显著的进展,并在实际应用中得到了广泛的应用。以自然图像或视频帧作为输入,端到端深度人脸识别系统输出人脸特征进行识别。为了实现这一目标,整个系统通常由三个关键要素构建:人脸检测、人脸预处理和人脸表示。人脸检测在图像或帧中定位人脸。然后,对人脸进行预处理,将人脸标定为标准视图,并将其裁剪为标准化像素大小。最后,在人脸表示阶段,从预处理后的人脸中提取识别特征进行识别。深度卷积神经网络满足了这三个要素。摘要随着深度学习技术的蓬勃发展,端到端深度人脸识别技术的能力得到了极大的提高,本文对端到端深度人脸识别技术中各个方面的最新进展进行了综述。首先,我们介绍端到端深度人脸识别的概述,如前所述,它包括人脸检测、人脸预处理和人脸表示。然后,我们分别回顾了基于深度学习的每个元素的进展,包括许多方面,如最新的算法设计、评估指标、数据集、性能比较、存在的挑战和未来的研究方向。我们希望这一调查可以为我们更好地理解端到端人脸识别的大图和更系统的探索带来有益的想法。

https://arxiv.org/abs/2009.13290

成为VIP会员查看完整内容
0
41

视频中的异常检测是一个研究了十多年的问题。这一领域因其广泛的适用性而引起了研究者的兴趣。正因为如此,多年来出现了一系列广泛的方法,这些方法从基于统计的方法到基于机器学习的方法。在这一领域已经进行了大量的综述,但本文着重介绍了使用深度学习进行异常检测领域的最新进展。深度学习已成功应用于人工智能的许多领域,如计算机视觉、自然语言处理等。然而,这项调查关注的是深度学习是如何改进的,并为视频异常检测领域提供了更多的见解。本文针对不同的深度学习方法提供了一个分类。此外,还讨论了常用的数据集以及常用的评价指标。然后,对最近的研究方法进行了综合讨论,以提供未来研究的方向和可能的领域。

https://arxiv.org/abs/2009.14146

成为VIP会员查看完整内容
0
35

少样本学习(FSL)在机器学习领域具有重要意义和挑战性。成功地从很少的样本中学习和归纳的能力是区分人工智能和人类智能的一个明显的界限,因为人类可以很容易地从一个或几个例子中建立他们对新颖性的认知,而机器学习算法通常需要数百或数千个监督样本来保证泛化能力。尽管FSL的悠久历史可以追溯到21世纪初,近年来随着深度学习技术的蓬勃发展也引起了广泛关注,但迄今为止,有关FSL的调研或评论还很少。在此背景下,我们广泛回顾了2000年至2019年FSL的200多篇论文,为FSL提供了及时而全面的调研。在本综述中,我们回顾了FSL的发展历史和目前的进展,原则上将FSL方法分为基于生成模型和基于判别模型的两大类,并特别强调了基于元学习的FSL方法。我们还总结了FSL中最近出现的几个扩展主题,并回顾了这些主题的最新进展。此外,我们重点介绍了FSL在计算机视觉、自然语言处理、音频和语音、强化学习和机器人、数据分析等领域的重要应用。最后,我们对调查进行了总结,并对未来的发展趋势进行了讨论,希望对后续研究提供指导和见解。

地址:

https://www.zhuanzhi.ai/paper/ffc99a53aeb6629e21b9a42db76b9dd1

概述:

人类智能的一个令人印象深刻的特点是能够从一个或几个例子中迅速建立对新概念的认知。许多认知和心理学证据[184,224,371]表明,人类可以通过很少的图像[23]识别视觉物体,甚至儿童也可以通过一次偶见就记住一个新单词[35,51]。虽然从很少的样本中支持人类学习和归纳能力的确切原因仍是一个深刻的谜,但一些神经生物学研究[285,29,157]认为,人类显著的学习能力得益于人脑中的前额叶皮层(PFC)和工作记忆,特别是PFC特有的神经生物学机制与大脑中存储的以往经验之间的相互作用。相比之下,最先进的机器学习算法都需要大量数据,尤其是最广为人知的深度学习[186],它将人工智能推向了一个新的高潮。深度学习作为机器学习发展的重要里程碑,在视觉[172,319,120]、语言[231,318]、语言[127]、游戏[308]、人口学[97]、医学[74]、植物病理学[100]、动物学[252]等广泛的研究领域都取得了显著的成就。一般来说,深度学习的成功可以归结为三个关键因素:强大的计算资源(如GPU)、复杂的神经网络(如CNN[172]、LSTM[129])和大规模数据集(如ImageNet[287]、Pascal-VOC[75])。然而,在现实的应用场景中,比如在医学、军事、金融等领域,由于隐私、安全、数据标注成本高等因素,我们无法获得足够的标签训练样本。因此,使学习系统能够有效地从很少的样本中进行学习和归纳,成为几乎所有机器学习研究人员所期待的蓝图。

从高层次上看,研究少样本学习的理论和现实意义主要来自三个方面。首先,FSL方法不依赖于大规模的训练样本,从而避免了在某些特定应用中数据准备的高昂成本。第二,FSL可以缩小人类智能和人工智能之间的差距,是发展通用人工智能的必要之旅[191]。第三,FSL可以实现一个新兴任务的低成本和快速的模型部署,而这个任务只有几个暂时可用的样本,这有利于阐明任务早期的潜在规律。

少数样本学习(FSL),又称小样本学习、少样本学习或一次性学习,可以追溯到21世纪初。尽管该研究已有近20年的历史,在理论和应用层面上都具有重要意义,但到目前为止,相关的调查和综述还很少。在本文中,我们广泛调查了从21世纪头十年到2019年几乎所有与FSL相关的科学论文,以详细阐述一个系统的FSL调研。我们必须强调,这里讨论的FSL与zero-shot learning (ZSL)正交[346],这是机器学习的另一个热门话题。ZSL的设置需要与概念相关的侧面信息来支持跨概念的知识迁移,这与FSL有很大的不同。据我们所知,到目前为止,只有两份与fsl相关的预先打印的综述伦恩[305,349]。与他们相比,本次综述的新颖之处和贡献主要来自五个方面:

(1) 我们对2000年至2019年的200多篇与FSL相关的论文进行了更全面、更及时的综述,涵盖了从最早的凝固模型[233]到最新的元学习方法的所有FSL方法。详尽的阐述有助于把握FSL的整个发展过程,构建完整的FSL知识体系。

(2) 根据FSL问题的建模原则,我们提供了一种可理解的层次分类法,将现有的FSL方法分为基于生成模型的方法和基于判别模型的方法。在每个类中,我们根据可一般化的属性进一步进行更详细的分类。

(3) 我们强调当前主流目前的方法,例如,基于目前的元学习方法,和分类成五大类,他们希望通过元学习策略学习学习,包括Learn-to-Measure Learn-to-Finetune, Learn-to-Parameterize,学会调整和Learn-to-Remember。此外,本调查还揭示了各种基于元学习的FSL方法之间潜在的发展关系。

(4) 总结了最近在普通FSL之外出现的几个外延研究课题,并回顾了这些课题的最新进展。这些主题包括半监督FSL、无监督FSL、跨域FSL、广义FSL和多模态FSL,它们具有挑战性,同时也为许多现实机器学习问题的解决赋予了突出的现实意义。这些扩展主题在以前的综述中很少涉及。

(5) 我们广泛总结了现有FSL在计算机视觉、自然语言处理、音频和语音、增强学习和机器人、数据分析等各个领域的应用,以及目前FSL在基准测试中的表现,旨在为后续研究提供一本手册,这是之前综述中没有涉及到的。

本文的其余部分组织如下。在第2节中,我们给出了一个概述,包括FSL的发展历史、我们稍后将使用的符号和定义,以及现有FSL方法的分类建议。第3节和第4节分别详细讨论了基于生成模型的方法和基于判别模型的方法。然后,第5节总结了FSL中出现的几个扩展主题。在第6节中,我们广泛地研究了FSL在各个领域的应用以及FSL的基准性能。在第8节中,我们以对未来方向的讨论来结束这次综述。

成为VIP会员查看完整内容
0
144

当前的深度学习研究以基准评价为主。如果一种方法在专门的测试集上有良好的经验表现,那么它就被认为是有利的。这种心态无缝地反映在持续学习的重现领域,在这里研究的是持续到达的基准数据集。核心挑战是如何保护之前获得的表示,以免由于迭代参数更新而出现灾难性地遗忘的情况。然而,各个方法的比较是与现实应用程序隔离的,通常通过监视累积的测试集性能来判断。封闭世界的假设仍然占主导地位。假设在部署过程中,一个模型保证会遇到来自与用于训练的相同分布的数据。这带来了一个巨大的挑战,因为众所周知,神经网络会对未知的实例提供过于自信的错误预测,并在数据损坏的情况下崩溃。在这个工作我们认为值得注意的教训来自开放数据集识别,识别的统计偏差以外的数据观测数据集,和相邻的主动学习领域,数据增量查询等预期的性能收益最大化,这些常常在深度学习的时代被忽略。基于这些遗忘的教训,我们提出了一个统一的观点,以搭建持续学习,主动学习和开放集识别在深度神经网络的桥梁。我们的结果表明,这不仅有利于每个个体范式,而且突出了在一个共同框架中的自然协同作用。我们从经验上证明了在减轻灾难性遗忘、主动学习中查询数据、选择任务顺序等方面的改进,同时在以前提出的方法失败的地方展示了强大的开放世界应用。

https://www.zhuanzhi.ai/paper/e5bee7a1e93a93ef9139966643317e1c

概述:

随着实用机器学习系统的不断成熟,社区发现了对持续学习[1]、[2]的兴趣。与广泛练习的孤立学习不同,在孤立学习中,系统的算法训练阶段被限制在一个基于先前收集的i.i.d数据集的单一阶段,持续学习需要利用随着时间的推移而到来的数据的学习过程。尽管这种范式已经在许多机器学习系统中找到了各种应用,回顾一下最近关于终身机器学习[3]的书,深度学习的出现似乎已经将当前研究的焦点转向了一种称为“灾难性推理”或“灾难性遗忘”的现象[4],[5],正如最近的评论[6],[7],[8],[9]和对深度持续学习[8],[10],[11]的实证调查所表明的那样。后者是机器学习模型的一个特殊效应,机器学习模型贪婪地根据给定的数据群更新参数,比如神经网络迭代地更新其权值,使用随机梯度估计。当包括导致数据分布发生任何变化的不断到达的数据时,学习到的表示集被单向引导,以接近系统当前公开的数据实例上的任何任务的解决方案。自然的结果是取代以前学到的表征,导致突然忘记以前获得的信息。

尽管目前的研究主要集中在通过专门机制的设计来缓解持续深度学习中的这种遗忘,但我们认为,一种非常不同形式的灾难性遗忘的风险正在增长,即忘记从过去的文献中吸取教训的危险。尽管在连续的训练中保留神经网络表示的努力值得称赞,但除了只捕获灾难性遗忘[12]的度量之外,我们还高度关注了实际的需求和权衡,例如包括内存占用、计算成本、数据存储成本、任务序列长度和训练迭代次数等。如果在部署[14]、[15]、[16]期间遇到看不见的未知数据或小故障,那么大多数当前系统会立即崩溃,这几乎可以被视为误导。封闭世界的假设似乎无所不在,即认为模型始终只会遇到与训练过程中遇到的数据分布相同的数据,这在真实的开放世界中是非常不现实的,因为在开放世界中,数据可以根据不同的程度变化,而这些变化是不现实的,无法捕获到训练集中,或者用户能够几乎任意地向系统输入预测信息。尽管当神经网络遇到不可见的、未知的数据实例时,不可避免地会产生完全没有意义的预测,这是众所周知的事实,已经被暴露了几十年了,但是当前的努力是为了通过不断学习来规避这一挑战。选择例外尝试解决识别不可见的和未知的示例、拒绝荒谬的预测或将它们放在一边供以后使用的任务,通常总结在开放集识别的伞下。然而,大多数现有的深度连续学习系统仍然是黑盒,不幸的是,对于未知数据的错误预测、数据集的异常值或常见的图像损坏[16],这些系统并没有表现出理想的鲁棒性。

除了目前的基准测试实践仍然局限于封闭的世界之外,另一个不幸的趋势是对创建的持续学习数据集的本质缺乏理解。持续生成模型(如[17]的作者的工作,[18],[19],[20],[21],[22]),以及类增量持续学习的大部分工作(如[12]中给出的工作,[23],[24],[25],[26],[27],[28])一般调查sequentialized版本的经过时间考验的视觉分类基准如MNIST [29], CIFAR[30]或ImageNet[31],单独的类只是分成分离集和序列所示。为了在基准中保持可比性,关于任务排序的影响或任务之间重叠的影响的问题通常会被忽略。值得注意的是,从邻近领域的主动机器学习(半监督学习的一种特殊形式)中吸取的经验教训,似乎并没有整合到现代的连续学习实践中。在主动学习中,目标是学会在让系统自己查询接下来要包含哪些数据的挑战下,逐步地找到与任务解决方案最接近的方法。因此,它可以被视为缓解灾难性遗忘的对抗剂。当前的持续学习忙于维护在每个步骤中获得的信息,而不是无休止地积累所有的数据,而主动学习则关注于识别合适的数据以纳入增量训练系统的补充问题。尽管在主动学习方面的早期开创性工作已经迅速识别出了通过使用启发式[32]、[33]、[34]所面临的强大应用的挑战和陷阱,但后者在深度学习[35]、[36]、[37]、[38]的时代再次占据主导地位,这些挑战将再次面临。

在这项工作中,我们第一次努力建立一个原则性和巩固的深度持续学习、主动学习和在开放的世界中学习的观点。我们首先单独回顾每一个主题,然后继续找出在现代深度学习中似乎较少受到关注的以前学到的教训。我们将继续争论,这些看似独立的主题不仅从另一个角度受益,而且应该结合起来看待。在这个意义上,我们建议将当前的持续学习实践扩展到一个更广泛的视角,将持续学习作为一个总括性术语,自然地包含并建立在先前的主动学习和开放集识别工作之上。本文的主要目的并不是引入新的技术或提倡一种特定的方法作为通用的解决方案,而是对最近提出的神经网络[39]和[40]中基于变分贝叶斯推理的方法进行了改进和扩展,以说明一种走向全面框架的可能选择。重要的是,它作为论证的基础,努力阐明生成建模作为深度学习系统关键组成部分的必要性。我们强调了在这篇论文中发展的观点的重要性,通过实证证明,概述了未来研究的含义和有前景的方向。

成为VIP会员查看完整内容
0
72

主动学习试图在具有尽可能少标注样本的同时最大化模型的性能增益。深度学习(Deep learning, DL)需要大量标注数据,如果模型要学习如何提取高质量的特征,就需要大量的数据供应来优化大量的参数。近年来,由于互联网技术的飞速发展,我们进入了一个以海量可用数据为特征的信息丰富性时代。因此,DL得到了研究者的极大关注,并得到了迅速的发展。但与DL相比,研究者对AL的兴趣相对较低,这主要是因为在DL兴起之前,传统机器学习需要的标记样本相对较少,这意味着早期的AL很少被赋予应有的价值。虽然DL在各个领域都取得了突破,但大部分的成功都要归功于大量公开的带标注的数据集。然而,获取大量高质量的带注释数据集需要耗费大量人力,在需要较高专业知识水平的领域(如语音识别、信息提取、医学图像等)是不可行的,因此AL逐渐得到了它应该得到的重视。

因此,研究是否可以使用AL来降低数据标注的成本,同时保留DL强大的学习能力是很自然的。由于这些调研的结果,深度主动学习(DAL)出现了。虽然对这一课题的研究相当丰富,但至今还没有对相关著作进行全面的调研; 因此,本文旨在填补这一空白。我们为现有的工作提供了一个正式的分类方法,以及一个全面和系统的概述。此外,我们还从应用的角度对DAL的发展进行了分析和总结。最后,我们讨论了与DAL相关的问题,并提出了一些可能的发展方向。

概述:

深度学习(DL)和主动学习(AL)在机器学习领域都有重要的应用。由于其优良的特性,近年来引起了广泛的研究兴趣。更具体地说,DL在各种具有挑战性的任务上取得了前所未有的突破;然而,这很大程度上是由于大量标签数据集的发表[16,87]。因此,在一些需要丰富知识的专业领域,样品标注成本高限制了DL的发展。相比之下,一种有效的AL算法在理论上可以实现标注效率的指数加速。这将极大地节省数据标注成本。然而,经典的AL算法也难以处理高维数据[160]。因此,DL和AL的结合被称为DAL,有望取得更好的效果。DAL被广泛应用于多个领域,包括图像识别[35,47,53,68],文本分类[145,180,185],视觉答题[98],目标检测[3,39,121]等。虽然已经发表了丰富的相关工作,DAL仍然缺乏一个统一的分类框架。为了填补这一空白,在本文中,我们将全面概述现有的DAL相关工作,以及一种正式的分类方法。下面我们将简要回顾DL和AL在各自领域的发展现状。随后,在第二节中,进一步阐述了DL与AL结合的必要性和挑战。

图1所示。DL、AL和DAL的典型体系结构比较。(a)一种常见的DL模型:卷积神经网络。(b) 基于池化的AL框架: 使用查询策略查询未标记的样本池U和将其交给oracle进行标注,然后将查询样本添加到标记的训练数据集L,然后使用新学到的知识查询的下一轮。重复此过程,直到标签预算耗尽或达到预定义的终止条件。(c) DAL的一个典型例子:在标签训练集L0上初始化或预训练DL模型的参数的常变量,利用未标记池U的样本通过DL模型提取特征。然后根据相应的查询策略选择样本,在查询时对标签进行查询,形成新的标签训练集L,然后在L上训练DL模型,同时更新U。重复此过程,直到标签预算耗尽或达到预定义的终止条件。

DAL结合了DL和AL的共同优势:它不仅继承了DL处理高维图像数据和自动提取特征的能力,也继承了AL有效降低标注成本的潜力。因此,DAL具有令人着迷的潜力,特别是在标签需要高水平的专业知识和难以获得的领域。

成为VIP会员查看完整内容
0
52

目标检测的任务是从图像中精确且高效地识别、定位出大量预定义类别的物体实例。随着深度学习的广泛应用,目标检测的精确度和效率都得到了较大提升,但基于深度学习的目标检测仍面临改进与优化主流目标检测算法的性能、提高小目标物体检测精度、实现多类别物体检测、轻量化检测模型等关键技术的挑战。针对上述挑战,本文在广泛文献调研的基础上,从双阶段、单阶段目标检测算法的改进与结合的角度分析了改进与优化主流目标检测算法的方法,从骨干网络、增加视觉感受野、特征融合、级联卷积神经网络和模型的训练方式的角度分析了提升小目标检测精度的方法,从训练方式和网络结构的角度分析了用于多类别物体检测的方法,从网络结构的角度分析了用于轻量化检测模型的方法。此外,对目标检测的通用数据集进行了详细介绍,从4个方面对该领域代表性算法的性能表现进行了对比分析,对目标检测中待解决的问题与未来研究方向做出预测和展望。目标检测研究是计算机视觉和模式识别中备受青睐的热点,仍然有更多高精度和高效的算法相继提出,未来将朝着更多的研究方向发展。

成为VIP会员查看完整内容
0
80

小样本学习是当前研究关注的热点。这篇论文总结了2016年到2020年的小样本元学习文章,划分为四类:基于数据增强; 基于度量学习,基于元优化; 和基于语义的。值得查看!

摘要:

在图像识别和图像分类等方面,深度神经网络的表现已经超过了人类。然而,随着各种新类别的出现,如何从有限的样本中不断扩大此类网络的学习能力,仍然是一个挑战。像元学习和/或小样本学习这样的技术表现出了良好的效果,他们可以根据先验知识学习或归纳到一个新的类别/任务。在本文中,我们研究了计算机视觉领域中现有的小样本元学习技术的方法和评价指标。我们为这些技术提供了一个分类法,并将它们分类为数据增强、嵌入、优化和基于语义的学习,用于小样本、单样本和零样本设置。然后我们描述在每个类别中所做的重要工作,并讨论他们解决从少数样本中学习的困境的方法。最后,我们在常用的基准测试数据集Omniglot和MiniImagenet上比较了这些技术,并讨论了提高这些技术性能的未来方向,从而达到超越人类的最终目标。

地址: https://www.zhuanzhi.ai/paper/8d29a5f14fcd0cc9a1aa508d072fb328

概述:

基于人工智能(AI)的系统正在成为人类生活的重要组成部分,无论是个人生活还是专业生活。我们周围都是基于人工智能的机器和应用程序,它们将使我们的生活变得更容易。例如,自动邮件过滤(垃圾邮件检测),购物网站推荐,智能手机中的社交网络等[1,2,3,4]。这一令人印象深刻的进展之所以成为可能,是因为机器或深度学习模型[5]取得了突破性的成功。机器或深度学习占据了AI领域的很大一部分。深度学习模型是建立在多层感知器与应用基于梯度的优化技术的能力。深度学习模型最常见的两个应用是:计算机视觉(CV),其目标是教会机器如何像人类一样看和感知事物;自然语言处理(NLP)和自然语言理解(NLU),它们的目标是分析和理解大量的自然语言数据。这些深度学习模型在图像识别[6,7,8]、语音识别[9,10,11,12,13]、自然语言处理与理解[14,15,16,17,18]、视频分析[19,20,21,22,23]、网络安全[24,25,26,27,28,29,30]等领域都取得了巨大的成功。机器和/或深度学习最常见的方法是监督学习,其中针对特定应用程序的大量数据样本与它们各自的标签一起被收集并形成一个数据集。该数据集分为三个部分: 训练、验证和测试。在训练阶段,将训练集和验证集的数据及其各自的标签输入模型,通过反向传播和优化,将模型归纳为一个假设。在测试阶段,将测试数据输入模型,根据导出的假设,模型预测测试数据样本的输出类别。

由于计算机和现代系统的强大能力[31,32],处理大量数据的能力已经非常出色。随着各种算法和模型的进步,深度学习已经能够赶上人类,在某些情况下甚至超过人类。AlphaGo[33]是一个基于人工智能的agent,在没有任何人类指导的情况下训练,能够击败世界围棋冠军。围棋是一种古老的棋盘游戏,被认为比国际象棋[34]复杂10倍;在另一个复杂的多人战略游戏《DOTA》中,AI-agent打败了《DOTA[35]》的人类玩家;对于图像识别和分类的任务,ResNet[6]和Inception[36,37,38]等模型能够在流行的ImageNet数据集上取得比人类更好的性能。ImageNet数据集包括超过1400万张图像,超过1000个类别[39]。

人工智能的最终目标之一是在任何给定的任务中赶上或超过人类。为了实现这一目标,必须尽量减少对大型平衡标记数据集的依赖。当前的模型在处理带有大量标记数据的任务时取得了成功的结果,但是对于其他带有标记数据很少的任务(只有少数样本),各自模型的性能显著下降。对于任何特定任务,期望大型平衡数据集是不现实的,因为由于各种类别的性质,几乎不可能跟上产生的标签数据。此外,生成标记数据集需要时间、人力等资源,而且在经济上可能非常昂贵。另一方面,人类可以快速地学习新的类或类,比如给一张奇怪动物的照片,它可以很容易地从一张由各种动物组成的照片中识别出动物。人类相对于机器的另一个优势是能够动态地学习新的概念或类,而机器必须经过昂贵的离线培训和再培训整个模型来学习新类,前提是要有标签数据可用性。研究人员和开发人员的动机是弥合人类和机器之间的鸿沟。作为这个问题的一个潜在解决方案,我们已经看到元学习[40,41,42,43,44,45,46,47,48,49,50]、小样本学习[51,52,53,54]、低资源学习[55,56,57,58]、零样本学习[59,60,61,62,63,63,64,64,65]等领域的工作在不断增加,这些领域的目标是使模型更好地推广到包含少量标记样本的新任务。

什么是小样本元学习?

在few-shot, low-shot, n-shot learning (n一般在1 - 5之间)中,其基本思想是用大量的数据样本对模型进行多类的训练,在测试过程中,模型会给定一个新的类别(也称为新集合),每个类别都有多个数据样本,一般类别数限制为5个。在元学习中,目标是泛化或学习学习过程,其中模型针对特定任务进行训练,不同分类器的函数用于新任务集。目标是找到最佳的超参数和模型权值,使模型能够轻松适应新任务而不过度拟合新任务。在元学习中,有两类优化同时运行: 一类是学习新的任务; 另一个是训练学习器。近年来,小样本学习和元学习技术引起了人们极大的兴趣。

元学习领域的早期研究工作是Yoshua和Samy Bengio[67]以及Fei-Fei Li在less -shot learning[68]中完成的。度量学习是使用的较老的技术之一,其目标是从嵌入空间中学习。将图像转换为嵌入向量,特定类别的图像聚在一起,而不同类别的图像聚在一起比较远。另一种流行的方法是数据增强,从而在有限的可用样本中产生更多的样本。目前,基于语义的方法被广泛地研究,分类仅仅基于类别的名称及其属性。这种基于语义的方法是为了解决零样本学习应用的启发。

迁移学习与自监督学习

迁移学习的总体目标是从一组任务中学习知识或经验,并将其迁移到类似领域的任务中去[95]。用于训练模型获取知识的任务有大量的标记样本,而迁移任务的标记数据相对较少(也称为微调),这不足以使模型训练和收敛到特定的任务。迁移学习技术的表现依赖于两项任务之间的相关性。在执行迁移学习时,分类层被训练用于新的任务,而模型中先前层的权值保持不变[96]。对于每一个新的任务,在我们进行迁移学习的地方,学习速率的选择和要冻结的层数都必须手工决定。与此相反,元学习技术可以相当迅速地自动适应新的任务。

自监督学习的研究近年来得到了广泛的关注[97,98,99]。自监督学习(SSL)技术的训练基于两个步骤:一是在一个预定义代理任务上进行训练,在大量的未标记数据样本上进行训练;第二,学习到的模型参数用于训练或微调主要下游任务的模型。元学习或小样本学习技术背后的理念与自监督学习非常相似,自监督学习是利用先前的知识,识别或微调一个新的任务。研究表明,自监督学习可以与小样本学习一起使用,以提高模型对新类别的表现[100,101]。

方法体系组织:

元学习、小样本学习、低资源学习、单样本学习、零样本学习等技术的主要目标是通过基于先验知识或经验的迭代训练,使深度学习模型从少量样本中学习能泛化到新类别。先验知识是在包含大量样本的带标签数据集上训练样本,然后利用这些知识在有限样本下识别新的任务而获得的知识。因此,在本文中,我们将所有这些技术结合在了小样本体系下。由于这些技术没有预定义的分类,我们将这些方法分为四大类: 基于数据增强; 基于度量学习,基于元优化; 和基于语义的(如图1所示)。基于数据增强的技术非常流行,其思想是通过扩充最小可用样本和生成更多样化的样本来训练模型来扩展先验知识。在基于嵌入的技术中,数据样本被转换为另一个低级维,然后根据这些嵌入之间的距离进行分类。在基于优化的技术中,元优化器用于在初始训练期间更好地泛化模型,从而可以更好地预测新任务。基于语义的技术是将数据的语义与模型的先验知识一起用于学习或优化新的类别。

成为VIP会员查看完整内容
0
111

在海量大数据的帮助下,深度学习在许多领域都取得了显著的成功。但是,数据标签的质量是一个问题,因为在许多现实场景中缺乏高质量的标签。由于带噪标签严重降低了深度神经网络的泛化性能,从带噪标签中学习(鲁棒训练)已成为现代深度学习应用的一项重要任务。在这个综述中,我们首先从监督学习的角度来描述标签噪声的学习问题。接下来,我们提供了对46种最先进的鲁棒训练方法的全面回顾,所有这些方法根据其方法上的差异被归类为7组,然后系统地比较用于评价其优越性的6种属性。然后,总结了常用的评价方法,包括公共噪声数据集和评价指标。最后,我们提出了几个有前景的研究方向,可以作为未来研究的指导。

https://arxiv.org/abs/2007.08199

成为VIP会员查看完整内容
0
44
小贴士
相关VIP内容
专知会员服务
18+阅读 · 2020年12月29日
专知会员服务
41+阅读 · 2020年10月2日
专知会员服务
35+阅读 · 2020年9月30日
专知会员服务
72+阅读 · 2020年9月7日
专知会员服务
80+阅读 · 2020年8月1日
专知会员服务
111+阅读 · 2020年7月31日
专知会员服务
44+阅读 · 2020年7月20日
相关论文
Jing Zhao,Samanvitha Basole,Mark Stamp
0+阅读 · 3月3日
Lizhen Nie,Dan L. Nicolae
1+阅读 · 3月3日
One-Class Classification: A Survey
Pramuditha Perera,Poojan Oza,Vishal M. Patel
5+阅读 · 1月8日
Eugene A. Golikov
5+阅读 · 2020年12月10日
OD-GCN: Object Detection by Knowledge Graph with GCN
Zheng Liu,Zidong Jiang,Wei Feng
4+阅读 · 2019年9月30日
Kamran Kowsari,Kiana Jafari Meimandi,Mojtaba Heidarysafa,Sanjana Mendu,Laura E. Barnes,Donald E. Brown
3+阅读 · 2019年4月25日
A Comprehensive Survey on Graph Neural Networks
Zonghan Wu,Shirui Pan,Fengwen Chen,Guodong Long,Chengqi Zhang,Philip S. Yu
16+阅读 · 2019年1月3日
Yihui He,Xiangyu Zhang,Marios Savvides,Kris Kitani
4+阅读 · 2018年9月23日
Guanglu Song,Yu Liu,Ming Jiang,Yujie Wang,Junjie Yan,Biao Leng
4+阅读 · 2018年4月14日
Top