【导读】文本分类是自然语言处理汇总的基础性任务,伴随机器学习尤其是深度学习模型的发展,文本分类算法也在革新换代。最近,来自Snapchat、Google、NTU、Tabriz、微软等学者发表了关于《深度学习文本分类》的综述论文,42页pdf215篇参考文献,详细回顾了近年来发展起来的150多个基于深度学习的文本分类模型,并讨论了它们的技术贡献、相似性和优点。我们还提供了40多个广泛用于文本分类的流行数据集的摘要。

基于深度学习的模型已经在各种文本分类任务中超越了传统的基于机器学习的方法,包括情感分析、新闻分类、问题回答和自然语言推理。在这项工作中,我们详细回顾了近年来发展起来的150多个基于深度学习的文本分类模型,并讨论了它们的技术贡献、相似性和优点。我们还提供了40多个广泛用于文本分类的流行数据集的摘要。最后,我们对不同深度学习模型在流行基准上的表现进行了定量分析,并讨论了未来的研究方向。

https://www.arxiv-vanity.com/papers/2004.03705/

1. 概述

文本分类又称文本归档,是自然语言处理(NLP)中的一个经典问题,其目的是将标签或标记分配给文本单元,如句子、查询、段落和文档。它的应用范围很广,包括问题回答、垃圾邮件检测、情绪分析、新闻分类、用户意图分类、内容审核等等。文本数据可以来自不同的来源,例如web数据、电子邮件、聊天、社交媒体、机票、保险索赔、用户评论、客户服务的问题和答案等等。文本是极其丰富的信息来源,但由于其非结构化的性质,从文本中提取见解可能是具有挑战性和耗时的。

文本分类可以通过人工标注或自动标注来实现。随着文本数据在工业应用中的规模越来越大,文本自动分类变得越来越重要。自动文本分类的方法可以分为三类:

  • 基于规则的方法
  • 基于机器学习(数据驱动)的方法
  • 混合的方法

基于规则的方法使用一组预定义的规则将文本分类为不同的类别。例如,任何带有“足球”、“篮球”或“棒球”字样的文档都被指定为“体育”标签。这些方法需要对领域有深入的了解,并且系统很难维护。另一方面,基于机器学习的方法学习根据过去对数据的观察进行分类。使用预先标记的示例作为训练数据,机器学习算法可以了解文本片段与其标记之间的内在关联。因此,基于机器学习的方法可以检测数据中的隐藏模式,具有更好的可扩展性,可以应用于各种任务。这与基于规则的方法形成了对比,后者针对不同的任务需要不同的规则集。混合方法,顾名思义,使用基于规则和机器学习方法的组合来进行预测。

近年来,机器学习模型受到了广泛的关注。大多数经典的基于机器学习的模型遵循流行的两步过程,在第一步中,从文档(或任何其他文本单元)中提取一些手工制作的特征,在第二步中,将这些特征提供给分类器进行预测。一些流行的手工制作功能包括单词包(BoW)及其扩展。常用的分类算法有朴素贝叶斯、支持向量机、隐马尔可夫模型、梯度增强树和随机森林。这两步方法有几个局限性。例如,依赖手工制作的特征需要繁琐的特征工程和分析才能获得良好的性能。另外,特征设计对领域知识的依赖性强,使得该方法难以推广到新的任务中。最后,这些模型不能充分利用大量的训练数据,因为特征(或特征模板)是预先定义的。

在2012年,一种基于深度学习的模型AlexNet (AlexNet,)在ImageNet竞赛中获得了巨大的优势。从那时起,深度学习模型被应用到计算机视觉和NLP的广泛任务中,提高了技术水平(vaswani2017attention; he2016deep, devlin2018bert ;yang2019xlnet, )。这些模型尝试以端到端方式学习特征表示并执行分类(或回归)。它们不仅能够发现数据中隐藏的模式,而且更容易从一个应用程序转移到另一个应用程序。毫不奇怪,这些模型正在成为近年来各种文本分类任务的主流框架。

这个综述,我们回顾了在过去六年中为不同的文本分类任务开发的150多个深度学习模型,包括情感分析、新闻分类、主题分类、问答(QA)和自然语言推理(NLI)。我们根据这些作品的神经网络架构将它们分为几个类别,例如基于递归神经网络(RNNs)、卷积神经网络(CNNs)、注意力、Transformers、胶囊网等的模型。本文的贡献总结如下:

  • 我们提出了150多个用于文本分类的深度学习模型的详细概述。
  • 我们回顾了40多个流行的文本分类数据集。
  • 我们提供了一个定量分析的表现,选定的一套深度学习模型在16个流行的基准。
  • 我们将讨论尚存的挑战和未来的方向。
  1. 深度学习模型文本分类

在本节中,我们将回顾150多个针对各种文本分类问题提出的深度学习框架。为了便于遵循,我们根据这些模型的主要架构贡献,将它们分为以下几类:

基于前馈网络的模型,该模型将文本视为一个单词包(第2.1节)。

基于RNNs的模型,该模型将文本视为单词序列,旨在捕获单词依赖关系和文本结构(第2.2节)。

基于CNN的模型,它被训练来识别文本中的模式,例如关键短语,用于分类(第2.3节)。

胶囊网络解决了CNNs的池化操作所带来的信息丢失问题,最近已被应用于文本分类(第2.4节)。

注意力机制是一种有效识别文本中相关词的机制,已成为开发深度学习模型的有用工具(第2.5节)。

记忆增强网络,它将神经网络与某种形式的外部记忆相结合,模型可以读写外部记忆(章节2.6)。

Transformer,它允许比RNNs更多的并行化,使得使用GPU集群有效地(预先)训练非常大的语言模型成为可能(章节2.7)。

图神经网络,用于捕获自然语言的内部图结构,如语法和语义解析树(第2.8节)。

设计用于文本匹配的Siamese神经网络,文本分类的一个特例(第2.9节)。

混合模型,将注意力、RNNs、CNNs等结合起来,以捕获句子和文档的局部和全局特征(第2.10节)。

最后,在第2.11节中,我们回顾了监督学习之外的建模技术,包括使用自动编码器和对抗性训练的非监督学习和增强学习。

  1. 文本分类数据集

  1. 结果比较

  1. 未来方向

在基于深度学习模型的帮助下,文本分类在过去几年里取得了很大的进展。在过去的十年中,人们提出了一些新的思想(如神经嵌入、注意力机制、自注意、Transformer、BERT和XLNet),并取得了快速的进展。尽管取得了所有这些进展,但我们面前仍有几项挑战需要解决。本节将介绍其中的一些挑战,并讨论我们认为有助于推进该领域的研究方向。

  • 用于更有挑战性任务的数据集
  • 对常识进行建模
  • 可解释的深度学习模型
  • 记忆效率模型
  • 小样本学习和零样本学习
成为VIP会员查看完整内容
Deep Learning Based Text Classification-A Comprehensive Review.pdf
0
72

相关内容

机器学习的一个分支,它基于试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的一系列算法。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

近年来,预训练模型(PTMs)的出现将自然语言处理(NLP)带入了一个新的时代。在这项综述中,我们提供了一个全面的PTMs调研。首先简要介绍了语言表示学习及其研究进展。然后,我们根据四种观点对现有的PTMs进行了系统的分类。接下来,我们将描述如何将PTMs的知识应用于下游任务。最后,我们概述了未来PTMs研究的一些潜在方向。本调查旨在为理解、使用和开发各种NLP任务的PTMs提供实际指导。

1. 概述

随着深度学习的发展,各种神经网络被广泛用于解决自然语言处理(NLP)任务,如卷积神经网络(convolutional neural networks, CNNs)[75,80,45]、递归神经网络(neural networks, RNNs)[160, 100]、基于图的神经网络(graphbased neural network, GNNs)[146, 161, 111]和注意力机制[6,171]等。这些神经模型的优点之一是能够缓解特征工程问题。非神经NLP方法通常严重依赖于离散的手工特征,而神经方法通常使用低维和稠密的向量(又称分布式表示)隐式地表示语言的语法或语义特征。这些表示是在特定的NLP任务中学习的。因此,神经方法使人们可以很容易地开发各种NLP系统。

尽管神经模型在NLP任务中取得了成功,但与计算机视觉(CV)领域相比,性能改进可能不那么显著。主要原因是,当前用于大多数监督的NLP任务的数据集相当小(机器翻译除外)。深度神经网络通常具有大量的参数,使其对这些小的训练数据过度拟合,在实际应用中泛化效果不佳。因此,许多NLP任务的早期神经模型相对较浅,通常只包含1 ~ 3个神经层。

最近大量的工作表明,在大型语料库上的预训练模型(PTMs)可以学习通用语言表示,这对后续的NLP任务是有益的,可以避免从零开始训练新模型。随着计算能力的发展,深层模型(即随着训练技能的不断提高,PTMs的体系结构由浅向深推进。第一代PTM的目标是学习好的词嵌入。由于下游任务不再需要这些模型本身,它们在计算效率方面通常非常肤浅,如Skip-Gram[116]和GloVe[120]。虽然这些预训练的嵌入可以捕获单词的语义含义,但它们是上下文无关的,不能捕获文本的高级概念,如语法结构、语义角色、回指等。第二代PTMs主要学习上下文词嵌入,如CoVe[113]、ELMo[122]、OpenAI GPT[130]、BERT[32]等。这些学习过的编码器仍然需要在上下文中通过下游任务来表示单词。此外,还提出了各种预训练的任务,以学习PTMs的不同目的。

这篇综述的贡献可以总结如下:

    1. 全面调研。我们为NLP提供了PTMs的全面回顾,包括背景知识、模型架构、预训练任务、各种扩展、适应方法和应用。给出了典型模型的详细描述,进行了必要的比较,总结了相应的算法。
    1. 新分类法。我们提出了一种基于自然语言处理的PTMs分类方法,该方法从四个不同的角度对现有的PTMs进行了分类:1)单词表示的类型;2) PTMs架构;3)培训前的任务类型;4)特定类型场景或输入的扩展。
  • 3.资源丰富。我们在PTMs上收集了丰富的资源,包括开源系统、论文列表等。

    1. 未来的发展方向。我们讨论并分析了现有PTMs的局限性。并提出未来可能的研究方向。

综述的其余部分组织如下。第2节概述了PTMs的背景概念和常用符号。第3节简要概述了PTMs,并澄清了PTMs的分类。第4节提供了PTMs的扩展。第5节讨论如何将PTMs的知识迁移到下游任务。第6节给出了PTMs的相关资源,包括开源系统、论文列表等。第7节介绍了跨各种NLP任务的应用程序集合。第8节讨论了当前的挑战并提出了未来的方向。第9节对本文进行了总结。

2. 背景

2.1 语言表示学习

分布式表示的核心思想是用低维实值向量来描述文本的意义。而向量的每一个维度都没有对应的意义,而整体则代表一个具体的概念。图1说明了NLP的通用神经体系结构。词嵌入有两种:非上下文嵌入和上下文嵌入。它们之间的区别是,一个词的嵌入是否根据它出现的上下文动态变化。

2.2 神经上下文编码器

大部分的神经上下文编码器可以分为三类:卷积模型、序列模型和基于图的模型。图2说明了这些模型的体系结构。

(1) 卷积模型。卷积模型采用单词在输入句中的嵌入,通过卷积运算将相邻词的局部信息聚合起来,从而获取单词的意义[80]。卷积模型通常易于训练,能够捕获局部上下文信息。

(2 )序列模型。序列模型通常采用rns(如LSTM[60]和GRU[21])来捕获单词的上下文表示。在实践中,双向RNNs被用来收集单词两边的信息,但其性能往往受到长期依赖问题的影响。

(3) 基于图模型。与上述模型不同的是,基于图的模型以单词为节点,学习单词之间具有预定义语言结构的上下文表示,如句法结构[146,161]或语义关系[111]。

2.3 为什么要预训练?

随着深度学习的发展,模型参数的数量迅速增加。需要更大的数据集来充分训练模型参数并防止过度拟合。然而,对于大多数NLP任务来说,构建大规模的标记数据集是一个巨大的挑战,因为注释成本非常昂贵,特别是对于语法和语义相关的任务。

相比之下,大规模的未标记语料库相对容易构建。为了利用巨大的未标记文本数据,我们可以首先从它们那里学习良好的表示,然后将这些表示用于其他任务。最近的研究表明,借助从大型无注释语料库的PTMs中提取的表示,许多NLP任务的性能都有显著提高。

预训练的好处可以总结如下:

  • 在大型文本语料库上的预训练可以学习通用语言表示并帮助完成后续任务。
  • 预训练提供了更好的模型初始化,这通常会带来更好的泛化性能,并加速对目标任务的收敛。
  • 预训练可以看作是一种正则化,以避免小数据[39]的过拟合。

3. 预训练语言模型分类

为了明确现有PTMs与NLP之间的关系,我们构建了PTMs的分类法,该分类法从不同的角度对现有PTMs进行了分类: (1) PTMs使用的单词表示类型,(2) PTMs使用的主干网络,(3) PTMs使用的预训练任务类型,(4) 为特定类型的场景或输入设计的PTMs。图6显示了分类以及一些相应的代表性PTMs。

此外,表1详细区分了一些有代表性的PTMs。

4. 预训练语言模型扩展

4.1 知识增强的PTMs

PTMs通常从通用的大型文本语料库中学习通用语言表示,但缺乏领域特定的知识。将来自外部知识库的领域知识整合到PTM中已被证明是有效的。外部知识范围从语言学[87,78,123,178],语义[92],常识[48],事实[199,123,101,188,182],到具体领域的知识[54]。

4.2 多模态PTMS 由于PTMs在许多NLP任务上的成功,一些研究集中在获得PTMs的跨模态版本上。这些模型中的绝大多数是为一般的视觉和语言特征编码而设计的。这些模型是在一些巨大的跨模态数据语料库上进行预训练的,例如带有口语单词的视频或带有字幕的图像,结合扩展的预训练任务来充分利用多模态特征。VideoBERT[152]和CBT[151]是视频和文本的联合模型。为了获得用于预训练的视觉和语言标记序列,视频分别由基于cnn的编码器和现成的语音识别技术进行预处理。在处理后的数据上训练一个变压器编码器,以学习下游任务(如视频字幕)的视觉语言表示。此外,UniViLM[109]提出引入生成任务来进一步预训练下游任务中使用的解码器。

4.3 模型压缩

  1. 下游任务应用

  1. PTM资源

  1. 应用

应用基准、机器翻译、问答、情感分析、摘要、命名实体识别

  1. 未来方向

(1) PTMs的上界

目前,PTMs还没有达到其上限。现有的PTMs大多可以通过更多的训练步骤和更大的语料库来进一步完善。

通过增加模型的深度可以进一步提高NLP的技术水平,如Megatron-LM144和Turing-NLG(170亿个参数,78个隐藏尺寸为4256和28个注意头的Transformer层)。

通用型PTM一直是我们学习语言固有的通用知识(甚至是世界知识)的追求,但此类PTM通常需要更深入的体系结构、更大的语料库和更具挑战性的训练前任务,这又进一步导致了更高的训练成本。然而,训练大模型也是一个具有挑战性的问题,需要更复杂、更高效的训练技术,如分布式训练、混合精度、梯度积累等。因此,更实际的方向是使用现有的硬件和软件设计更有效的模型架构、自我监督的训练前任务、优化器和训练技能。ELECTRA[22]是这个方向的一个很好的解决方案。

(2) 面向任务的预训练和模型压缩

在实践中,不同的下游任务需要不同的PTMs能力。PTMs与下游任务之间的差异通常表现在两个方面:模型体系结构和数据分布。较大的差异可能导致PTMs的益处可能不明显。尽管较大的PTM通常可以带来更好的性能,但一个实际问题是如何在特殊场景(如低容量设备和低延迟应用程序)中利用这些巨大的PTM。因此,我们可以为下游任务精心设计特定的模型架构和预训练任务,或者从现有的PTMs中提取部分特定于任务的知识。

此外,我们可以通过使用模型压缩等技术,用通用的现有PTM来教他们,而不是从头开始训练面向任务的ptm(参见4.3节)。虽然在CV[17]中,针对CNNs的模型压缩已经得到了广泛的研究,但针对NLP的PTMs的模型压缩才刚刚开始。Transformer 的全连接结构也使模型压缩更具挑战性。

(3) PTMs架构

Transformer已被证明是一种有效的预训练体系结构。然而,Transformer 的主要限制是它的计算复杂度,它是输入长度的平方。由于GPU内存的限制,目前大多数PTM不能处理512个标记以上的序列。打破这一限制需要改进Transformer的架构,比如Transformer- xl[27]。因此,为PTMs搜索更有效的模型体系结构对于捕获更长期的上下文信息非常重要。

深度架构的设计具有挑战性,我们可以从一些自动化方法中寻求帮助,如神经架构搜索(neural architecture search, NAS)[205]。

(4)超越微调的知识迁移

目前,将PTMs的知识传递给下游任务的主要方法是微调,但其缺点是参数效率低下:每个下游任务都有自己的微调参数。一种改进的解决方案是对原有PTMs的参数进行修正,并为特定的任务添加小的可调自适应模块[149,61]。因此,我们可以使用一个共享的PTM来服务多个下游任务。事实上,从PTMs中挖掘知识可以更加灵活,如特征提取、知识提取[195]、数据扩充[185,84],利用PTMs作为外部知识[125]等。期望有更有效的方法。

(5) PTMs的可解释性和可靠性

虽然PTM的性能令人印象深刻,但其深层的非线性架构使得决策过程高度不透明。

近年来,可解释人工智能[4]已经成为人工智能领域的一个研究热点。与用于图像的CNN不同,由于Transformer的架构和语言的复杂性,解释PTMs更加困难。人们做了大量的工作(见3.3节)来分析PTMs中包含的语言和世界知识,这有助于我们以某种程度的透明性理解这些PMTs。然而,许多模型分析工作依赖于注意力机制,注意力对可解释性的有效性仍存在争议[66,142]。

此外,随着PTMs在生产系统中的广泛应用,PTMs的可靠性也成为一个备受关注的问题。深层神经模型容易受到对抗性样本的影响,这些例子可能会误导模型,使其产生一个特定的错误预测,而这种预测会受到来自原始输入的难以察觉的干扰。在CV中,对抗性攻击和防御被广泛研究。然而,由于语言的离散性,文本仍然面临着挑战。为文本生成对抗性样本需要具备以下品质:(1)不易被人类法官察觉,但容易被神经模型误导;(2)语法流利,语义与原输入一致。Jin等人[71]用对抗性的例子成功地在文本分类和文本蕴涵方面攻击了经过微调的BERT。Wallace等人[175]定义了通用的对抗触发器,当将模型连接到任何输入时,该触发器可以诱导模型产生特定目的的预测。有些触发器甚至会导致GPT-2模型生成带有种族主义色彩的文本。对PTM进行对抗性攻击的研究有助于我们了解它们的能力,从而充分暴露它们的弱点。Sun等人[155]的研究表明,BERT对拼写错误并不敏感。此外,针对PTMs的对抗防御也很有前途,它提高了PTMs的鲁棒性,使其对对抗攻击免疫。

总的来说,作为许多NLP应用中的关键组件,PTMs的可解释性和可靠性在很多方面还有待进一步的探索,这有助于我们理解PTMs是如何工作的,并为更好的使用和进一步的改进提供指导。

参考文献:

Akbik et al. [2018] Alan Akbik, Duncan Blythe, and Roland Vollgraf. Contextual string embeddings for sequence labeling. In COLING, pages 1638–1649, 2018.

Alberti et al. [2019] Chris Alberti, Jeffrey Ling, Michael Collins, and David Reitter. Fusion of detected objects in text for visual question answering. In EMNLP-IJCNLP, pages 2131–2140, 2019.

Alsentzer et al. [2019] Emily Alsentzer, John R. Murphy, Willie Boag, Wei-Hung Weng, Di Jin, Tristan Naumann, and Matthew B. A. McDermott. Publicly available clinical BERT embeddings. arXiv preprint arXiv:1904.03323, 2019.

Arrieta et al. [2020] Alejandro Barredo Arrieta, Natalia Díaz-Rodríguez, Javier Del Ser, Adrien Bennetot, Siham Tabik, Alberto Barbado, Salvador García, Sergio Gil-López, Daniel Molina, Richard Benjamins, et al. Explainable artificial intelligence (xai): Concepts, taxonomies, opportunities and challenges toward responsible ai. Information Fusion, 58:82–115, 2020.

Baevski et al. [2019] Alexei Baevski, Sergey Edunov, Yinhan Liu, Luke Zettlemoyer, and Michael Auli.Cloze-driven pretraining of self-attention networks. In Kentaro Inui, Jing Jiang, Vincent Ng, and Xiaojun Wan, editors, EMNLP-IJCNLP, pages 5359–5368, 2019.

成为VIP会员查看完整内容
0
78

命名实体识别(NER)的任务是识别提到命名实体的文本范围,并将它们分类为预定义的类别,如人员、位置、组织等。NER是各种自然语言应用的基础,如问题回答、文本摘要和机器翻译。虽然早期的NER系统能够成功地产生相当高的识别精度,但它们通常需要大量的人力来精心设计规则或特征。近年来,基于连续实值向量表示和通过非线性处理的语义组合的深度学习被应用到NER系统中,产生了最先进的性能。在这篇论文中,我们对现有的深度学习技术进行了全面的回顾。我们首先介绍NER资源,包括标记的NER语料库和现成的NER工具。然后,我们根据一个分类法沿着三个轴对现有的作品进行了系统的分类:输入的分布式表示、上下文编码器和标记解码器。接下来,我们调查了最近在新的NER问题设置和应用中应用深度学习技术的最有代表性的方法。最后,我们向读者介绍NER系统所面临的挑战,并概述该领域的未来发展方向。

成为VIP会员查看完整内容
0
62

​【导读】图像分类是计算机视觉中的基本任务之一,深度学习的出现是的图像分类技术趋于完善。最近,自监督学习与预训练技术的发展使得图像分类技术出现新的变化,这篇论文概述了最新在实际情况中少标签小样本等情况下,关于自监督学习、半监督、无监督方法的综述,值得看!

地址:

https://www.zhuanzhi.ai/paper/6d160a5f8634d25a2feda7a30e1e5132

摘要

虽然深度学习策略在计算机视觉任务中取得了突出的成绩,但仍存在一个问题。目前的策略严重依赖于大量的标记数据。在许多实际问题中,创建这么多标记的训练数据是不可行的。因此,研究人员试图将未标记的数据纳入到培训过程中,以获得与较少标记相同的结果。由于有许多同时进行的研究,很难掌握最近的发展情况。在这项调查中,我们提供了一个概述,常用的技术和方法,在图像分类与较少的标签。我们比较了21种方法。在我们的分析中,我们确定了三个主要趋势。1. 基于它们的准确性,现有技术的方法可扩展到实际应用中。2. 为了达到与所有标签的使用相同的结果所需要的监督程度正在降低。3.所有方法都共享公共技术,只有少数方法结合这些技术以获得更好的性能。基于这三个趋势,我们发现了未来的研究机会。

1. 概述

深度学习策略在计算机视觉任务中取得了显著的成功。它们在图像分类、目标检测或语义分割等各种任务中表现最佳。

图1: 这张图说明并简化了在深度学习训练中使用未标记数据的好处。红色和深蓝色的圆圈表示不同类的标记数据点。浅灰色的圆圈表示未标记的数据点。如果我们只有少量的标记数据可用,我们只能对潜在的真实分布(黑线)做出假设(虚线)。只有同时考虑未标记的数据点并明确决策边界,才能确定这种真实分布。

深度神经网络的质量受到标记/监督图像数量的强烈影响。ImageNet[26]是一个巨大的标记数据集,它允许训练具有令人印象深刻的性能的网络。最近的研究表明,即使比ImageNet更大的数据集也可以改善这些结果。但是,在许多实际的应用程序中,不可能创建包含数百万张图像的标记数据集。处理这个问题的一个常见策略是迁移学习。这种策略甚至可以在小型和专门的数据集(如医学成像[40])上改进结果。虽然这对于某些应用程序来说可能是一个实际的解决方案,但基本问题仍然存在: 与人类不同,监督学习需要大量的标记数据。

对于给定的问题,我们通常可以访问大量未标记的数据集。Xie等人是最早研究无监督深度学习策略来利用这些数据[45]的人之一。从那时起,未标记数据的使用被以多种方式研究,并创造了研究领域,如半监督、自我监督、弱监督或度量学习[23]。统一这些方法的想法是,在训练过程中使用未标记的数据是有益的(参见图1中的说明)。它要么使很少有标签的训练更加健壮,要么在某些不常见的情况下甚至超过了监督情况下的性能[21]。

由于这一优势,许多研究人员和公司在半监督、自我监督和非监督学习领域工作。其主要目标是缩小半监督学习和监督学习之间的差距,甚至超越这些结果。考虑到现有的方法如[49,46],我们认为研究处于实现这一目标的转折点。因此,在这个领域有很多正在进行的研究。这项综述提供了一个概述,以跟踪最新的在半监督,自监督和非监督学习的方法。

大多数综述的研究主题在目标、应用上下文和实现细节方面存在差异,但它们共享各种相同的思想。这项调查对这一广泛的研究课题进行了概述。这次调查的重点是描述这两种方法的异同。此外,我们还将研究不同技术的组合。

2. 图像分类技术

在这一节中,我们总结了关于半监督、自监督和非监督学习的一般概念。我们通过自己对某些术语的定义和解释来扩展这一总结。重点在于区分可能的学习策略和最常见的实现策略的方法。在整个综述中,我们使用术语学习策略,技术和方法在一个特定的意义。学习策略是算法的一般类型/方法。我们把论文方法中提出的每个算法都称为独立算法。方法可以分为学习策略和技术。技术是组成方法/算法的部分或思想。

2.1 分类方法

监督、半监督和自我监督等术语在文献中经常使用。很少有人给出明确的定义来区分这两个术语。在大多数情况下,一个粗略的普遍共识的意义是充分的,但我们注意到,在边界情况下的定义是多种多样的。为了比较不同的方法,我们需要一个精确的定义来区分它们。我们将总结关于学习策略的共识,并定义我们如何看待某些边缘案例。一般来说,我们根据使用的标记数据的数量和训练过程监督的哪个阶段来区分方法。综上所述,我们把半监督策略、自我学习策略和无监督学习策略称为reduced减约监督学习策略。图2展示了四种深度学习策略。

图2: 插图的四个深学习策略——红色和深蓝色的圆圈表示标记数据点不同的类。浅灰色的圆圈表示未标记的数据点。黑线定义了类之间的基本决策边界。带条纹的圆圈表示在训练过程的不同阶段忽略和使用标签信息的数据点。

监督学习 Supervised Learning

监督学习是深度神经网络图像分类中最常用的方法。我们有一组图像X和对应的标签或类z。设C为类别数,f(X)为X∈X的某个神经网络的输出,目标是使输出与标签之间的损失函数最小化。测量f(x)和相应的z之间的差的一个常用的损失函数是交叉熵。

迁移学习

监督学习的一个限制因素是标签的可用性。创建这些标签可能很昂贵,因此限制了它们的数量。克服这一局限的一个方法是使用迁移学习。

迁移学习描述了训练神经网络的两个阶段的过程。第一个阶段是在大型通用数据集(如ImageNet[26])上进行有无监督的训练。第二步是使用经过训练的权重并对目标数据集进行微调。大量的文献表明,即使在小的领域特定数据集[40]上,迁移学习也能改善和稳定训练。

半监督学习

半监督学习是无监督学习和监督学习的混合.

Self-supervised 自监督学习

自监督使用一个借托pretext任务来学习未标记数据的表示。借托pretext任务是无监督的,但学习表征往往不能直接用于图像分类,必须进行微调。因此,自监督学习可以被解释为一种无监督的、半监督的或其自身的一种策略。我们将自我监督学习视为一种特殊的学习策略。在下面,我们将解释我们是如何得出这个结论的。如果在微调期间需要使用任何标签,则不能将该策略称为无监督的。这与半监督方法也有明显的区别。标签不能与未标记的数据同时使用,因为借托pretext任务是无监督的,只有微调才使用标签。对我们来说,将标记数据的使用分离成两个不同的子任务本身就是一种策略的特征。

2.2 分类技术集合

在减少监督的情况下,可以使用不同的技术来训练模型。在本节中,我们将介绍一些在文献中多种方法中使用的技术。

一致性正则化 Consistency regularization

一个主要的研究方向是一致性正则化。在半监督学习过程中,这些正则化被用作数据非监督部分的监督损失的附加损失。这种约束导致了改进的结果,因为在定义决策边界时可以考虑未标记的数据[42,28,49]。一些自监督或无监督的方法甚至更进一步,在训练中只使用这种一致性正则化[21,2]。

虚拟对抗性训练(VAT)

VAT[34]试图通过最小化图像与转换后的图像之间的距离,使预测不受小转换的影响。

互信息(MI)

MI定义为联合分布和边缘分布[8]之间的Kullback Leiber (KL)散度。

熵最小化(EntMin)

Grandvalet和Bengio提出通过最小化熵[15]来提高半监督学习的输出预测。

Overclustering

过度聚类在减少监督的情况下是有益的,因为神经网络可以自行决定如何分割数据。这种分离在有噪声的数据中或在中间类被随机分为相邻类的情况下是有用的。

Pseudo-Labels

一种估计未知数据标签的简单方法是伪标签

3. 图像分类模型

3.1 半监督学习

四种选择的半监督方法的图解——使用的方法在每张图像下面给出。输入在左边的蓝色方框中给出。在右侧提供了该方法的说明。一般来说,这个过程是自上而下组织的。首先,输入图像经过无或两个不同的随机变换预处理。自动增广[9]是一种特殊的增广技术。下面的神经网络使用这些预处理图像(x, y)作为输入。损失的计算(虚线)对于每种方法都是不同的,但是共享公共部分。所有的方法都使用了标记和预测分布之间的交叉熵(CE)。所有的方法还使用了不同预测输出分布(Pf(x), Pf(y))之间的一致性正则化。

3.2 自监督学习

四种选择的自我监督方法的图解——使用的方法在每张图像下面给出。输入在左边的红色方框中给出。在右侧提供了该方法的说明。微调部分不包括在内。一般来说,这个过程是自上而下组织的。首先,对输入图像进行一两次随机变换预处理或分割。下面的神经网络使用这些预处理图像(x, y)作为输入。损失的计算(虚线)对于每种方法都是不同的。AMDIM和CPC使用网络的内部元素来计算损失。DeepCluster和IIC使用预测的输出分布(Pf(x)、Pf(y))来计算损耗

3.3 21种图像分类方法比较

21种图像分类方法及其使用技术的概述——在左侧,第3节中回顾的方法按学习策略排序。第一行列出了在2.2小节中讨论过的可能的技术。根据是否可以使用带标签的数据,将这些技术分为无监督技术和有监督技术。技术的缩写也在第2.2小节中给出。交叉熵(Cross-entropy, CE)将CE的使用描述为训练损失的一部分。微调(FT)描述了交叉熵在初始训练后(例如在一个借口任务中)对新标签的使用。(X)指该技术不是直接使用,而是间接使用。个别的解释由所指示的数字给出。1 - MixMatch通过锐化预测[3],隐式地实现了熵最小化。2 - UDA预测用于过滤无监督数据的伪标签。3 -尽量减少相互信息的目的作为借口任务,例如视图之间的[2]或层之间的[17]。4 -信息的丢失使相互信息间接[43]最大化。5 - Deep Cluster使用K-Means计算伪标签,以优化分配为借口任务。6 - DAC使用元素之间的余弦距离来估计相似和不相似的项。可以说DAC为相似性问题创建了伪标签。

4. 实验比较结果

报告准确度的概述——第一列说明使用的方法。对于监督基线,我们使用了最好的报告结果,作为其他方法的基线。原始论文在准确度后的括号内。第二列给出了体系结构及其参考。第三列是预印本的出版年份或发行年份。最后四列报告了各自数据集的最高准确度分数%。

5 结论

在本文中,我们概述了半监督、自监督和非监督技术。我们用21种不同的方法分析了它们的异同和组合。这项分析确定了几个趋势和可能的研究领域。

我们分析了不同学习策略(半监督学习策略、自监督学习策略和无监督学习策略)的定义,以及这些学习策略中的常用技术。我们展示了这些方法一般是如何工作的,它们使用哪些技术,以及它们可以被归类为哪种策略。尽管由于不同的体系结构和实现而难以比较这些方法的性能,但我们确定了三个主要趋势。

ILSVRC-2012的前5名正确率超过90%,只有10%的标签表明半监督方法适用于现实问题。然而,像类别不平衡这样的问题并没有被考虑。未来的研究必须解决这些问题。

监督和半监督或自监督方法之间的性能差距正在缩小。有一个数据集甚至超过了30%。获得可与全监督学习相比的结果的标签数量正在减少。未来的研究可以进一步减少所需标签的数量。我们注意到,随着时间的推移,非监督方法的使用越来越少。这两个结论使我们认为,无监督方法在未来的现实世界中对图像分类将失去意义。

我们的结论是,半监督和自监督学习策略主要使用一套不同的技术。通常,这两种策略都使用不同技术的组合,但是这些技术中很少有重叠。S4L是目前提出的唯一一种消除这种分离的方法。我们确定了不同技术的组合有利于整体性能的趋势。结合技术之间的微小重叠,我们确定了未来可能的研究机会。

参考文献:

[1] B. Athiwaratkun, M. Finzi, P. Izmailov, and A. G. Wilson. There are many consistent explanations of unlabeled data: Why you should average. In International Conference on Learning Representations, 2019.

[2] P. Bachman, R. D. Hjelm, and W. Buchwalter. Learning representations by maximizing mutual information across views. In Advances in Neural Information Processing Systems, pages 15509–15519, 2019.

[3] D. Berthelot, N. Carlini, I. Goodfellow, N. Papernot, A. Oliver, and C. A. Raffel. Mixmatch: A holistic approach to semi-supervised learning. In Advances in Neural Information Processing Systems, pages 5050–5060, 2019.

[4] M. Caron, P. Bojanowski, A. Joulin, and M. Douze. Deep clustering for unsupervised learning of visual features. In Proceedings of the European Conference on Computer Vision (ECCV), pages 132–149, 2018.

[5] J. Chang, L. Wang, G. Meng, S. Xiang, and C. Pan. Deep adaptive image clustering. 2017 IEEE International Conference on Computer Vision (ICCV), pages 5880–5888, 2017.

成为VIP会员查看完整内容
0
111

在过去的几年里,自然语言处理领域由于深度学习模型的大量使用而得到了发展。这份综述提供了一个NLP领域的简要介绍和一个快速的深度学习架构和方法的概述。然后,筛选了大量最近的研究论文,并总结了大量相关的贡献。NLP研究领域除了计算语言学的一些应用外,还包括几个核心的语言处理问题。然后讨论了目前的技术水平,并对该领域今后的研究提出了建议。

成为VIP会员查看完整内容
0
129
小贴士
相关资讯
图卷积神经网络(GCN)文本分类详述
专知
205+阅读 · 2019年4月5日
基于深度学习的NLP 32页最新进展综述,190篇参考文献
人工智能学家
20+阅读 · 2018年12月4日
从0到1,这篇深度学习综述送给你!
机器学习算法与Python学习
18+阅读 · 2018年6月13日
机器学习自动文本分类
AI前线
22+阅读 · 2018年2月4日
就喜欢看综述论文:情感分析中的深度学习
机器之心
8+阅读 · 2018年1月26日
深度学习在文本分类中的应用
AI研习社
12+阅读 · 2018年1月7日
Tensorflow 文本分类-Python深度学习
Python程序员
12+阅读 · 2017年11月22日
相关论文
Suyu Ge,Chuhan Wu,Fangzhao Wu,Tao Qi,Yongfeng Huang
18+阅读 · 2020年3月31日
Mingzhen Li,Yi Liu,Xiaoyan Liu,Qingxiao Sun,Xin You,Hailong Yang,Zhongzhi Luan,Depei Qian
9+阅读 · 2020年2月6日
Mamdouh Farouk
5+阅读 · 2019年10月6日
Yang Liu
19+阅读 · 2019年3月25日
Chenguang Zhu,Michael Zeng,Xuedong Huang
7+阅读 · 2019年1月2日
Learning to Focus when Ranking Answers
Dana Sagi,Tzoof Avny,Kira Radinsky,Eugene Agichtein
3+阅读 · 2018年8月8日
Learning Visual Question Answering by Bootstrapping Hard Attention
Mateusz Malinowski,Carl Doersch,Adam Santoro,Peter Battaglia
4+阅读 · 2018年8月1日
Yingqi Qu,Jie Liu,Liangyi Kang,Qinfeng Shi,Dan Ye
11+阅读 · 2018年5月27日
Han Xiao,Lian Meng,Minlie Huang,Xiaoyan Zhu
6+阅读 · 2017年12月2日
Top