深度学习在大量领域取得优异成果,但仍然存在着鲁棒性和泛化性较差、难以学习和适应未观测任务、极其依赖大规模数据等问题.近两年元学习在深度学习上的发展,为解决上述问题提供了新的视野.元学习是一种模仿生物利用先前已有的知识,从而快速学习新的未见事物能力的一种学习定式.元学习的目标是利用已学习的信息,快速适应未学习的新任务.这与实现通用人工智能的目标相契合,对元学习问题的研究也是提高模型的鲁棒性和泛化性的关键.近年来随着深度学习的发展,元学习再度成为热点,目前元学习的研究百家争鸣、百花齐放. 本文从元学习的起源出发,系统地介绍元学习的发展历史,包括元学习的由来和原始定义,然后给出当前元学习的通用定义,同时总结当前元学习一些不同方向的研究成果,包括基于度量的元学习方法、基于强泛化新的初始化参数的元学习方法、基于梯度优化器的元学习方法、基于外部记忆单元的元学方法、基于数据增强的元学方法等. 总结其共有的思想和存在的问题,对元学习的研究思想进行分类,并叙述不同方法和其相应的算法.最后论述了元学习研究中常用数据集和评判标准,并从元学习的自适应性、进化性、可解释性、连续性、可扩展性展望其未来发展趋势.

引言

随着计算设备并行计算性能的大幅度 进步,以及近些年深度神经网络在各个领域 不断取得重大突破,由深度神经网络模型衍 生而来的多个机器学习新领域也逐渐成型, 如强化学习、深度强化学习[1] [2] 、深度监督 学习等。在大量训练数据的加持下,深度神 经网络技术已经在机器翻译、机器人控制、 大数据分析、智能推送、模式识别等方面取 得巨大成果[3] [4] [5] 。

实际上在机器学习与其他行业结合的 过程中,并不是所有领域都拥有足够可以让 深度神经网络微调参数至收敛的海量数据, 相当多领域要求快速反应、快速学习,如新 兴领域之一的仿人机器人领域,其面临的现 实环境往往极为复杂且难以预测,若按照传 统机器学习方法进行训练则需要模拟所有 可能遇到的环境,工作量极大同时训练成本 极高,严重制约了机器学习在其他领域的扩 展,因此在深度学习取得大量成果后,具有 自我学习能力与强泛化性能的元学习便成 为通用人工智能的关键。

元学习(Meta-learning)提出的目的是 针对传统神经网络模型泛化性能不足、对新 种类任务适应性较差的特点。在元学习介绍 中往往将元学习的训练和测试过程类比为 人类在掌握一些基础技能后可以快速学习并适应新任务,如儿童阶段的人类也可以快 速通过一张某动物照片学会认出该动物,即 机 器 学 习 中 的 小 样 本 学 习 ( Few-shot Learning)[6] [7] ,甚至不需要图像,仅凭描 述就可学会认识新种类,对应机器学习领域 中的(Zero-shot Learning)[8] ,而不需要大 量该动物的不同照片。人类在幼儿阶段掌握 的对世界的大量基础知识和对行为模式的 认知基础便对应元学习中的“元”概念,即一 个泛化性能强的初始网络加上对新任务的 快速适应学习能力,元学习的远期目标为通 过类似人类的学习能力实现强人工智能,当 前阶段体现在对新数据集的快速适应带来 较好的准确度,因此目前元学习主要表现为 提高泛化性能、获取好的初始参数、通过少 量计算和新训练数据即可在模型上实现和 海量训练数据一样的识别准确度,近些年基 于元学习,在小样本学习领域做出了大量研 究[9] [10] [11] [12] [13] [14] [15] [16] [17] ,同时为模拟 人类认知,在 Zero-shot Learning 方向也进行 了大量探索[18] [19] [20] [21] [22] 。

在机器学习盛行之前,就已产生了元学习的相关概念。当时的元学习还停留在认知 教育科学相关领域,用于探讨更加合理的教 学方法。Gene V. Glass 在 1976 年首次提出 了“元分析”这一概念[23] ,对大量的分析结 果进行统计分析,这是一种二次分析办法。G Powell 使用“元分析”的方法对词汇记忆 进行了研究[24] ,指出“强制”和“诱导”意象有 助于词汇记忆。Donald B.Maudsley 在 1979 年首次提出了“元学习”这一概念,将其描述 为“学习者意识到并越来越多地控制他们已 经内化的感知、探究、学习和成长习惯的过 程”,Maudsley 将元学习做为在假设、结构、 变化、过程和发展这 5 个方面下的综合,并 阐述了相关基本原则[25] 。BIGGS J.B 将元学 习描述为“意识到并控制自己的学习的状 态” [26] ,即学习者对学习环境的感知。P Adey 将元学习的策略用在物理教学上[27] , Vanlehn K 探讨了辅导教学中的元学习方法 [28] 。从元分析到元学习,研究人员主要关 注人是如何意识和控制自己学习的。一个具 有高度元学习观念的学生,能够从自己采用 的学习方法所产生的结果中获得反馈信息,进一步评价自己的学习方法,更好地达到学 习目标[29] 。随后元学习这一概念慢慢渗透 到机器学习领域。P.Chan 提出的元学习是一 种整合多种学习过程的技术,利用元学习的 策略组合多个不同算法设计的分类器,其整 体的准确度优于任何个别的学习算法[30] [31] [32] 。HilanBensusan 提出了基于元学习的决 策树框架[33] 。Vilalta R 则认为元学习是通 过积累元知识动态地通过经验来改善偏倚 的一种学习算法[34] 。

Meta-Learning 目前还没有确切的定义, 一般认为一个元学习系统需结合三个要求:系统必须包含一个学习子系统;利用以前学 习中提取的元知识来获得经验,这些元知识 来自单个数据集或不同领域;动态选择学习偏差。

元学习的目的就是为了设计一种机器学习模型,这种模型有类似上面提到的人的 学习特性,即使用少量样本数据,快速学习 新的概念或技能。经过不同任务的训练后, 元学习模型能很好的适应和泛化到一个新任务,也就学会了“Learning to learn”。

成为VIP会员查看完整内容
0
57

相关内容

Meta Learning,元学习,也叫 Learning to Learn(学会学习)。是继Reinforcement Learning(增强学习)之后又一个重要的研究分支。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

摘要:随着深度学习技术的快速发展,许多研究者尝试利用深度学习来解决文本分类问题,特别是在卷积神经网络和循环神经网络方面,出现了许多新颖且有效的分类方法。对基于深度神经网络的文本分类问题进行分析,介绍卷积神经网络、循环神经网络、注意力机制等方法在文本分类中的应用和发展,分析多种典型分类方法的特点和性能,从准确率和运行时间方面对基础网络结构进行比较,表明深度神经网络较传统机器学习方法在用于文本分类时更具优势,其中卷积神经网络具有优秀的分类性能和泛化能力。在此基础上,指出当前深度文本分类模型存在的不足,并对未来的研究方向进行展望。

http://www.ecice06.com/article/2021/1000-3428/2121.htm

文本分类技术经历了从专家系统到机器学习再到深度学习的发展过程。在20世纪80年代以前,基于规则系统的文本分类方法需要领域专家定义一系列分类规则,通过规则匹配判断文本类别。基于规则的分类方法容易理解,但该方法依赖专家知识,系统构建成本高且可移植性差。20世纪90年代,机器学习技术逐渐走向成熟,出现了许多经典的文本分类算法,如决策树[1]、朴素贝叶斯[2]、支持向量机[3]、最大熵[4]、最近邻[5]等,这些方法部分克服了上述缺点,一定程度上实现了分类器的自动生成,被广泛应用于各个领域。然而,机器学习方法在构建分类器之前通常需要繁杂的人工特征工程,这限制了其进一步发展。

2012年之后,深度学习算法引起了研究者的广泛关注。深度学习为机器学习建模提供了一种直接端到端的解决方案,可避免复杂的特征工程。GolVe[6]和word2vec[7]等词向量模型的提出,使深度学习算法成功地应用到文本处理领域,随后出现了各种基于深度神经网络(Deep Neural Network,DNN)的文本分类方法。这些方法主要采用卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)和注意力机制等深度学习技术,并且取得了比传统方法更为出色的性能。近年来,图卷积网络(Graph Convolutional Network,GCN)、区域嵌入和元学习等一些新的深度学习方法也被应用于文本分类领域。

本文对基于深度神经网络的文本分类技术进行介绍和分析,阐述卷积神经网络、循环神经网络和注意力机制等方法在文本分类中的应用和发展情况,总结各类方法的特点及区别,并对不同方法的性能表现和适用场景进行比较,讨论在应用深度学习方法处理文本分类任务时应当注意的问题。在此基础上,指出针对该技术未来的研究方向。

成为VIP会员查看完整内容
0
20

摘要: Web 2.0时代,消费者在在线购物、学习和娱乐时越来越多地依赖在线评论信息,而虚假的评论会误导消费者的决策,影响商家的真实信用,因此有效识别虚假评论具有重要意义。文中首先对虚假评论的范围进行了界定,并从虚假评论识别、形成动机、对消费者的影响以及治理策略4个方面归纳了虚假评论的研究内容,给出了虚假评论研究框架和一般识别方法的工作流程。然后从评论文本内容和评论者及其群组行为两个角度,对近十年来国内外的相关研究成果进行了综述,介绍了虚假评论效果评估的相关数据集和评价指标,统计分析了在公开数据集上实现的虚假评论有效识别方法,并从特征选取、模型方法、训练数据集、评价指标值等方面进行了对比分析。最后对虚假评论识别领域的有标注语料规模限制等未来研究方向进行了探讨。

成为VIP会员查看完整内容
0
24

近年来, 深度强化学习(Deep reinforcement learning, DRL)在诸多复杂序贯决策问题中取得巨大突破.由于融合了深度学习强大的表征能力和强化学习有效的策略搜索能力, 深度强化学习已经成为实现人工智能颇有前景的学习范式.然而, 深度强化学习在多Agent系统的研究与应用中, 仍存在诸多困难和挑战, 以StarCraft Ⅱ为代表的部分观测环境下的多Agent学习仍然很难达到理想效果.本文简要介绍了深度Q网络、深度策略梯度算法等为代表的深度强化学习算法和相关技术.同时, 从多Agent深度强化学习中通信过程的角度对现有的多Agent深度强化学习算法进行归纳, 将其归纳为全通信集中决策、全通信自主决策、欠通信自主决策3种主流形式.从训练架构、样本增强、鲁棒性以及对手建模等方面探讨了多Agent深度强化学习中的一些关键问题, 并分析了多Agent深度强化学习的研究热点和发展前景.

http://www.aas.net.cn/cn/article/doi/10.16383/j.aas.c180372

成为VIP会员查看完整内容
0
20

小样本学习旨在通过少量样本学习到解决问题的模型.近年来在大数据训练模型的趋势下,机器学习和深度学习在许多领域中取得了成功.但是在现实世界中的很多应用场景中,样本量很少或者标注样本很少,而对大量无标签样本进行标注工作将会耗费很大的人力.所以,如何用少量样本进行学习就成为了目前人们需要关注的问题.本文系统梳理了当前小样本学习的相关工作,具体介绍了基于模型微调、基于数据增强和基于迁移学习三大类小样本学习模型与算法的研究进展;本文将基于数据增强的方法细分为基于无标签数据、基于数据合成和基于特征增强三类,将基于迁移学习的方法细分为基于度量学习、基于元学习和基于图神经网络三类.本文还总结了目前常用的小样本数据集,以及代表性的小样本学习模型在这些数据集上的实验结果,随后对小样本学习的现状和挑战进行了概述,最后展望了小样本学习的未来发展方向.

http://www.jos.org.cn/jos/ch/reader/create_pdf.aspx?file_no=6138&journal_id=jos

随着大数据时代的到来,深度学习模型已经在图像分类、文本分类等任务中取得了先进成果.但深度学习模型的成功很大程度 上依赖于大量训练数据,而在现实世界的真实场景中某些类别只有少量数据或少量标注数据,而对无标签数据进行标注将会消耗 大量的时间和人力.与此相反,人类只需要通过少量数据就能做到快速学习.例如一个五六岁的小孩子从未见过企鹅,但如果给他看 过一张企鹅的图像,当他进入动物园看到真正的企鹅时,就会马上认出这是自己曾经在图像上见过的“企鹅”,这就是机器学习和人类学习之间存在的差距.受到人类学习观点的启发[1],小样本学习[2] [3](few-shot learning)的概念被提出,使得机器学习更加靠近人类思维.

早在 20 世纪八九十年代,就有一些研究人员注意到了单样本学习(one-shot learning)的问题,直到 2003 年 Li 等[4]才正式提出了 单样本学习的概念.他们认为当新的类别只有一个或几个带标签的样本时,已经学习到的旧类别可以帮助预测新类别[5].小样本学 习也叫作少样本学习(low-shot learning) [7],其目标是从少量样本中学习到解决问题的方法.与小样本学习相关的概念还有零样本学 习(zero-shot learning)等.零样本学习是指在没有训练数据的情况下,利用类别的属性等信息训练模型,从而识别新类别.

小样本学习的概念最早从计算机视觉(Computer Vision) [8]领域兴起,近几年受到广泛关注,在图像分类任务中已有很多性能优 异的算法模型[34][37][45].但是在自然语言处理领域(Natural Language Processing) [9]的发展较为缓慢,原因在于图像和语言特性不同.图 像相比文本更为客观,所以当样本数量较少时,图像的特征提取比文本更加容易[87].不过近年来小样本学习在自然语言处理领域也 有了一些研究和发展[10][46][48].根据所采用方法的不同,本文将小样本学习分为基于模型微调、基于数据增强和基于迁移学习三种. 基于模型微调的方法首先在含有大量数据的源数据集上训练一个分类模型,然后在含有少量数据的目标数据集上对模型进行微 调.但这种做法可能导致模型过拟合,因为少量数据并不能很好地反映大量数据的真实分布情况.为解决上述过拟合的问题,基于数 据增强和基于迁移学习的小样本学习方法被提出.基于数据增强的方法是利用辅助数据集或者辅助信息增强目标数据集中样本的 特征或扩充对目标数据集,使模型能更好地提取特征.本文根据学习方法不同,将基于数据增强的小样本学习方法进一步细分为基 于无标签数据、基于数据合成和基于特征增强三类方法.基于迁移学习的方法是目前比较前沿的方法,是指将已经学会的知识迁移 到一个新的领域中.本文根据学习框架将基于迁移学习的方法细分为基于度量学习、基于元学习和基于图神经网络(Graph Neural Networks)的方法.在度量学习的框架下目前已有许多性能较好的小样本学习模型,例如比较著名的原型网络(Prototypical Networks) [34]和匹配网络(Matching Networks) [31]等.基于元学习的方法不仅在目标任务上训练模型,而是从许多不同的任务中学习 元知识,当一个新的任务到来时,利用元知识调整模型参数,使模型能够快速收敛.近年来随着图神经网络的兴起,研究者将图神经网 络也应用到小样本学习中,取得了先进的结果.

除了图像分类和文本分类这两个主要任务,许多其他任务也面临着小样本问题.在计算机视觉应用中,利用小样本学习进行人脸识别[8][60][82]、食品识别[61]、表情识别[66]、手写字体识别[70][79]以及其他的图像识别[65]. 在自然语言处理应用中,使用小样本方法 实现对话系统[67]、口语理解[62],或者完成 NLP 的基本任务,例如 word embedding[63].在多媒体领域应用中,可以使用小样本方法实现 影像提取[73]和声纹识别[80]等.在生物与医学领域,可以应用于疾病诊断[71][72]、临床实验[84]、护士能力评价[75]、农作物病害识别[69][81]、 水量分析[76]等.在经济领域,可应用于产品销量预测[77]等.在工业与军事领域,可应用于齿轮泵寿命预测[78]、军事目标识别[74]和目标 威胁评估[83]等.

本文首先从基于模型微调、基于数据增强和基于迁移学习三种方法介绍小样本学习的研究进展,总结小样本学习的几个著名数据集以及已有模型在这些数据集上的实验结果;接下来,本文对小样本学习的研究现状和主要挑战进行总结;最后展望了未来的 发展趋势.

成为VIP会员查看完整内容
0
92

摘要:随着计算机行业和互联网时代的不断发展与进步,图神经网络已经成为人工智能和大数据重要研究领域。图神经网络是对相邻节点间信息的传播和聚合的重要技术,可以有效地将深度学习的理念应用于非欧几里德空间的数据上。简述图计算、图数据库、知识图谱、图神经网络等图技术领域的相关研究历史,分类介绍不同类型的图结构。分析对比不同的图神经网络技术,重点从频域和空间与的信息聚合方式上分类比较不同的图卷积网络算法。阐述图生成和图对抗网络、图强化学习、图迁移学习、神经任务图和图零样本学习等不同的图网络与深度学习方法相结合的技术方法,并列举不同的图神经网络技术在文本、图像、知识图谱、视频任务等领域的具体应用。最后,对图神经网络未来的发展与研究方向加以展望。

https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CAPJ&dbname=CAPJDAY&filename=JSJC20201123000&v=fpDLQvPDFGeYvQeSgmnh5h1YpkO6G1W6SQqt4w%25mmd2B%25mmd2BnZtjD3h80wKsQ5NhpJeXgtGI

概述

近年来随着计算机行业的快速发展和数据量的井喷式增长,深度学习方法被提出并得到了广泛的 应用。深度学习通过神经网络端到端的解决方案, 在图像处理、语音识别、语义理解[1]等领域取得了 巨大的成功,深度学习的应用往往都是在高维特征 空间上特征规则分布的欧几里德数据。作为一种关 系型数据结构,图(Graph)在深度学习中的应用研究近年来受到越来越多的关注,本文将图的演进历程分为数学起源、计算应用、神经网络延伸三个阶段。

图的概念起源于 18 世纪著名的柯尼斯堡七桥问 题,到了 20 世纪中期,拟阵理论、超图理论、极图 理论等研究蓬勃发展,使得图论(Graph Theory)[2] 在电子计算诞生前,就已经成为了重要的数学研究领域。

随着计算机的出现和机器计算时代的到来和发 展,图作为一种能够有效且抽象地表达信息和数据 中的实体以及实体之间关系的重要数据结构被广泛应用,图数据库有效解决了传统的关系型数据结构 面对大量复杂的数据所暴露出的建模缺陷多、计算速度慢等问题,图数据库也成为了非常热门的研究 领域。图结构(Graph-structured Data)[3]可以将结构化数据点通过边的形式,依照数据间的关系将不同类型和结构的数据节点连接起来,因而被广泛地应用在数据的存储、检索以及计算应用中。基于图结构数据,知识图谱[4-7]可以通过点和边的语义关系, 来实现精确地描述现实世界中实体之间的关联关系, 作为人工智能非常重要的研究领域,知识图谱的研究方向包括知识抽取、知识推理、知识图谱可视化等。图计算(Graph Computing)具有数据规模量大、 局部性低、计算性能高等特性,图计算算法[8-9]主要 可以分为路径搜索算法、中心性算法、社群发现算法等三类,实现了在关系复杂型的大规模数据上高 时效性和准确度的表现,在社交网络、团体反欺诈 和用户推荐等领域有着重要的应用。

与已经非常成熟图计算不同,图神经网络 (Graph Neural Network)的研究主要是集中在相邻节点信息的传播与聚合上,从图神经网络的概念提 出,到受深度学习中卷积神经网络的启发,2013 年 提出的基于图论的图卷积神经网络 [10-11]研究方向吸 引了大量学者关注。2018 年 DeepMind 提出图网络 (Graph Network)[12]的概念,希望能够将深度学习 端到端的学习方式与图结构关系归纳推理的理论结 合解决深度学习无法处理关系推理的问题。针对图 神经网络存在的问题,不同的学者们也给出了不同 的方案,随着对图神经网络这一新兴领域更加深入 的研究与探索,人工智能领域的版图将得到更大扩展。

文献[12]在关系归纳偏置和深度学习的研究基础 上,提出了面向关系推理的图网络概念并进行了综 述,但未对不同图网络技术进行分类和对比。文献 [13]从半监督、无监督方法的角度对图结构上的深度 学习进行了综述,但缺少相近的分类和应用的讨论。文献[14]主要从传播规则、网络结构等角度分析了图神经网络的不同模型以及应用。文献[15]则是详细对 比了时域和空间的不同图卷神经网络方法结构,但没有对图神经网络之于深度学习领域的探讨,如图强化学习、图迁移学习等。本文针对图神经网络, 分析对比了六种图神经网络方法的优劣,首次对处 理异构图数据的图神经网络技术进行了讨论和研究, 综述了五类图神经网络的研究领域,并对未来的发展方向进行了展望。

成为VIP会员查看完整内容
0
162

摘要

文本分类是自然语言处理中最基本、最基本的任务。过去十年,由于深度学习取得了前所未有的成功,这一领域的研究激增。大量的方法、数据集和评价指标已经在文献中提出,提高了全面和更新综述的需要。本文通过回顾1961年到2020年的先进方法的现状来填补这一空白,侧重于从浅到深的模型学习。我们根据所涉及的文本和用于特征提取和分类的模型创建文本分类的分类法。然后我们详细讨论每一个类别,处理支持预测测试的技术发展和基准数据集。本综述还提供了不同技术之间的综合比较,以及确定各种评估指标的优缺点。最后,总结了本研究的关键意义、未来研究方向和面临的挑战。

介绍

在许多自然语言处理(NLP)应用中,文本分类(为文本指定预定义标签的过程)是一个基本和重要的任务, 如情绪分析[1][2][3],主题标签[4][5][6],问答[7][8][9]和对话行为分类。在信息爆炸的时代,手工对大量文本数据进行处理和分类是一项耗时且具有挑战性的工作。此外,手工文本分类的准确性容易受到人为因素的影响,如疲劳、专业知识等。人们希望使用机器学习方法来自动化文本分类过程,以产生更可靠和较少主观的结果。此外,通过定位所需信息,可以提高信息检索效率,缓解信息超载的问题。 图1给出了在浅层和深层分析的基础上,文本分类所涉及的步骤流程图。文本数据不同于数字、图像或信号数据。它需要NLP技术来仔细处理。第一个重要的步骤是对模型的文本数据进行预处理。浅层学习模型通常需要通过人工方法获得良好的样本特征,然后用经典的机器学习算法对其进行分类。因此,特征提取在很大程度上制约了该方法的有效性。然而,与浅层模型不同,深度学习通过学习一组直接将特征映射到输出的非线性转换,将特征工程集成到模型拟合过程中。

主要文本分类方法的示意图如图2所示。从20世纪60年代到21世纪10年代,基于浅层学习的文本分类模型占据了主导地位。浅层学习意味着在乐此不疲的模型,如 NaÃŕve Bayes(NB)[10], K-近邻(KNN)[11],和支持向量机(SVM)[12]。与早期基于规则的方法相比,该方法在准确性和稳定性方面具有明显的优势。然而,这些方法仍然需要进行特征工程,这是非常耗时和昂贵的。此外,它们往往忽略文本数据中自然的顺序结构或上下文信息,使学习词汇的语义信息变得困难。自2010年代以来,文本分类逐渐从浅层学习模式向深度学习模式转变。与基于浅层学习的方法相比,深度学习方法避免了人工设计规则和特征,并自动提供文本挖掘的语义意义表示。因此,大部分文本分类研究工作都是基于DNNs的,这是一种计算复杂度很高的数据驱动方法。很少有人关注于用浅层学习模型来解决计算和数据的局限性。

在文献中,Kowsari等[13]考虑了不同的文本特征提取、降维方法、文本分类的基本模型结构和评价方法。Minaee等人[14]回顾了最近基于深度学习的文本分类方法、基准数据集和评估指标。与现有的文本分类研究不同,我们利用近年来的研究成果对现有的模型进行了从浅到深的总结。浅层学习模型强调特征提取和分类器设计。一旦文本具有精心设计的特征,就可以通过训练分类器来快速收敛。在不需要领域知识的情况下,DNNs可以自动进行特征提取和学习。然后给出了单标签和多标签任务的数据集和评价指标,并从数据、模型和性能的角度总结了未来的研究挑战。此外,我们在4个表中总结了各种信息,包括经典浅层和深度学习模型的必要信息、DNNs的技术细节、主要数据集的主要信息,以及在不同应用下的最新方法的一般基准。总而言之,本研究的主要贡献如下:

  • 我们在表1中介绍了文本分类的过程和发展,并总结了经典模式在出版年份方面的必要信息,包括地点、应用、引用和代码链接。

  • 根据模型结构,从浅层学习模型到深度学习模型,对主要模型进行了全面的分析和研究。我们在表2中对经典或更具体的模型进行了总结,并主要从基本模型、度量和实验数据集方面概述了设计差异。

  • 我们介绍了现有的数据集,并给出了主要的评价指标的制定,包括单标签和多标签文本分类任务。我们在表3中总结了基本数据集的必要信息,包括类别的数量,平均句子长度,每个数据集的大小,相关的论文和数据地址。

  • 我们在表5中总结了经典模型在基准数据集上的分类精度得分,并通过讨论文本分类面临的主要挑战和本研究的关键意义来总结综述结果。

成为VIP会员查看完整内容
3
105

小样本学习是当前研究关注的热点。这篇论文总结了2016年到2020年的小样本元学习文章,划分为四类:基于数据增强; 基于度量学习,基于元优化; 和基于语义的。值得查看!

摘要:

在图像识别和图像分类等方面,深度神经网络的表现已经超过了人类。然而,随着各种新类别的出现,如何从有限的样本中不断扩大此类网络的学习能力,仍然是一个挑战。像元学习和/或小样本学习这样的技术表现出了良好的效果,他们可以根据先验知识学习或归纳到一个新的类别/任务。在本文中,我们研究了计算机视觉领域中现有的小样本元学习技术的方法和评价指标。我们为这些技术提供了一个分类法,并将它们分类为数据增强、嵌入、优化和基于语义的学习,用于小样本、单样本和零样本设置。然后我们描述在每个类别中所做的重要工作,并讨论他们解决从少数样本中学习的困境的方法。最后,我们在常用的基准测试数据集Omniglot和MiniImagenet上比较了这些技术,并讨论了提高这些技术性能的未来方向,从而达到超越人类的最终目标。

地址: https://www.zhuanzhi.ai/paper/8d29a5f14fcd0cc9a1aa508d072fb328

概述:

基于人工智能(AI)的系统正在成为人类生活的重要组成部分,无论是个人生活还是专业生活。我们周围都是基于人工智能的机器和应用程序,它们将使我们的生活变得更容易。例如,自动邮件过滤(垃圾邮件检测),购物网站推荐,智能手机中的社交网络等[1,2,3,4]。这一令人印象深刻的进展之所以成为可能,是因为机器或深度学习模型[5]取得了突破性的成功。机器或深度学习占据了AI领域的很大一部分。深度学习模型是建立在多层感知器与应用基于梯度的优化技术的能力。深度学习模型最常见的两个应用是:计算机视觉(CV),其目标是教会机器如何像人类一样看和感知事物;自然语言处理(NLP)和自然语言理解(NLU),它们的目标是分析和理解大量的自然语言数据。这些深度学习模型在图像识别[6,7,8]、语音识别[9,10,11,12,13]、自然语言处理与理解[14,15,16,17,18]、视频分析[19,20,21,22,23]、网络安全[24,25,26,27,28,29,30]等领域都取得了巨大的成功。机器和/或深度学习最常见的方法是监督学习,其中针对特定应用程序的大量数据样本与它们各自的标签一起被收集并形成一个数据集。该数据集分为三个部分: 训练、验证和测试。在训练阶段,将训练集和验证集的数据及其各自的标签输入模型,通过反向传播和优化,将模型归纳为一个假设。在测试阶段,将测试数据输入模型,根据导出的假设,模型预测测试数据样本的输出类别。

由于计算机和现代系统的强大能力[31,32],处理大量数据的能力已经非常出色。随着各种算法和模型的进步,深度学习已经能够赶上人类,在某些情况下甚至超过人类。AlphaGo[33]是一个基于人工智能的agent,在没有任何人类指导的情况下训练,能够击败世界围棋冠军。围棋是一种古老的棋盘游戏,被认为比国际象棋[34]复杂10倍;在另一个复杂的多人战略游戏《DOTA》中,AI-agent打败了《DOTA[35]》的人类玩家;对于图像识别和分类的任务,ResNet[6]和Inception[36,37,38]等模型能够在流行的ImageNet数据集上取得比人类更好的性能。ImageNet数据集包括超过1400万张图像,超过1000个类别[39]。

人工智能的最终目标之一是在任何给定的任务中赶上或超过人类。为了实现这一目标,必须尽量减少对大型平衡标记数据集的依赖。当前的模型在处理带有大量标记数据的任务时取得了成功的结果,但是对于其他带有标记数据很少的任务(只有少数样本),各自模型的性能显著下降。对于任何特定任务,期望大型平衡数据集是不现实的,因为由于各种类别的性质,几乎不可能跟上产生的标签数据。此外,生成标记数据集需要时间、人力等资源,而且在经济上可能非常昂贵。另一方面,人类可以快速地学习新的类或类,比如给一张奇怪动物的照片,它可以很容易地从一张由各种动物组成的照片中识别出动物。人类相对于机器的另一个优势是能够动态地学习新的概念或类,而机器必须经过昂贵的离线培训和再培训整个模型来学习新类,前提是要有标签数据可用性。研究人员和开发人员的动机是弥合人类和机器之间的鸿沟。作为这个问题的一个潜在解决方案,我们已经看到元学习[40,41,42,43,44,45,46,47,48,49,50]、小样本学习[51,52,53,54]、低资源学习[55,56,57,58]、零样本学习[59,60,61,62,63,63,64,64,65]等领域的工作在不断增加,这些领域的目标是使模型更好地推广到包含少量标记样本的新任务。

什么是小样本元学习?

在few-shot, low-shot, n-shot learning (n一般在1 - 5之间)中,其基本思想是用大量的数据样本对模型进行多类的训练,在测试过程中,模型会给定一个新的类别(也称为新集合),每个类别都有多个数据样本,一般类别数限制为5个。在元学习中,目标是泛化或学习学习过程,其中模型针对特定任务进行训练,不同分类器的函数用于新任务集。目标是找到最佳的超参数和模型权值,使模型能够轻松适应新任务而不过度拟合新任务。在元学习中,有两类优化同时运行: 一类是学习新的任务; 另一个是训练学习器。近年来,小样本学习和元学习技术引起了人们极大的兴趣。

元学习领域的早期研究工作是Yoshua和Samy Bengio[67]以及Fei-Fei Li在less -shot learning[68]中完成的。度量学习是使用的较老的技术之一,其目标是从嵌入空间中学习。将图像转换为嵌入向量,特定类别的图像聚在一起,而不同类别的图像聚在一起比较远。另一种流行的方法是数据增强,从而在有限的可用样本中产生更多的样本。目前,基于语义的方法被广泛地研究,分类仅仅基于类别的名称及其属性。这种基于语义的方法是为了解决零样本学习应用的启发。

迁移学习与自监督学习

迁移学习的总体目标是从一组任务中学习知识或经验,并将其迁移到类似领域的任务中去[95]。用于训练模型获取知识的任务有大量的标记样本,而迁移任务的标记数据相对较少(也称为微调),这不足以使模型训练和收敛到特定的任务。迁移学习技术的表现依赖于两项任务之间的相关性。在执行迁移学习时,分类层被训练用于新的任务,而模型中先前层的权值保持不变[96]。对于每一个新的任务,在我们进行迁移学习的地方,学习速率的选择和要冻结的层数都必须手工决定。与此相反,元学习技术可以相当迅速地自动适应新的任务。

自监督学习的研究近年来得到了广泛的关注[97,98,99]。自监督学习(SSL)技术的训练基于两个步骤:一是在一个预定义代理任务上进行训练,在大量的未标记数据样本上进行训练;第二,学习到的模型参数用于训练或微调主要下游任务的模型。元学习或小样本学习技术背后的理念与自监督学习非常相似,自监督学习是利用先前的知识,识别或微调一个新的任务。研究表明,自监督学习可以与小样本学习一起使用,以提高模型对新类别的表现[100,101]。

方法体系组织:

元学习、小样本学习、低资源学习、单样本学习、零样本学习等技术的主要目标是通过基于先验知识或经验的迭代训练,使深度学习模型从少量样本中学习能泛化到新类别。先验知识是在包含大量样本的带标签数据集上训练样本,然后利用这些知识在有限样本下识别新的任务而获得的知识。因此,在本文中,我们将所有这些技术结合在了小样本体系下。由于这些技术没有预定义的分类,我们将这些方法分为四大类: 基于数据增强; 基于度量学习,基于元优化; 和基于语义的(如图1所示)。基于数据增强的技术非常流行,其思想是通过扩充最小可用样本和生成更多样化的样本来训练模型来扩展先验知识。在基于嵌入的技术中,数据样本被转换为另一个低级维,然后根据这些嵌入之间的距离进行分类。在基于优化的技术中,元优化器用于在初始训练期间更好地泛化模型,从而可以更好地预测新任务。基于语义的技术是将数据的语义与模型的先验知识一起用于学习或优化新的类别。

成为VIP会员查看完整内容
0
110

随着图像处理,语音识别等人工智能技术的发展,很多学习方法尤其是采用深度学习框架的方法取得了优异的性能,在精度和速度方面有了很大的提升,但随之带来的问题也很明显,这些学习方法如果要获得稳定的学习效果,往往需要使用数量庞大的标注数据进行充分训练,否则就会出现欠拟合的情况而导致学习性能的下降。因此,随着任务复杂程度和数据规模的增加,对人工标注数据的数量和质量也提出了更高的要求,造成了标注成本和难度的增大。同时,单一任务的独立学习往往忽略了来自其他任务的经验信息,致使训练冗余重复因而导致了学习资源的浪费,也限制了其性能的提升。为了缓解这些问题,属于迁移学习范畴的多任务学习方法逐渐引起了研究者的重视。与单任务学习只使用单个任务的样本信息不同,多任务学习假设不同任务数据分布之间存在一定的相似性,在此基础上通过共同训练和优化建立任务之间的联系。这种训练模式充分促进任务之间的信息交换并达到了相互学习的目的,尤其是在各自任务样本容量有限的条件下,各个任务可以从其它任务获得一定的启发,借助于学习过程中的信息迁移能间接利用其它任务的数据,从而缓解了对大量标注数据的依赖,也达到了提升各自任务学习性能的目的。在此背景之下,本文首先介绍了相关任务的概念,并按照功能的不同对相关任务的类型进行划分后再对它们的特点进行逐一描述。然后,本文按照数据处理模式和任务关系建模过程的不同将当前的主流算法划分为两大类:结构化多任务学习算法和深度多任务学习算法。其中,结构化多任务学习算法采用线性模型,可以直接针对数据进行结构假设并且使用原有标注特征表述任务关系,同时,又可根据学习对象的不同将其细分为基于任务层面和基于特征层面两种不同结构,每种结构有判别式方法和生成式方法两种实现手段。与结构化多任务学习算法的建模过程不同,深度多任务学习算法利用经过多层特征抽象后的深层次信息进行任务关系描述,通过处理特定网络层中的参数达到信息共享的目的。紧接着,以两大类算法作为主线,本文详细分析了不同建模方法中对任务关系的结构假设、实现途径、各自的优缺点以及方法之间的联系。最后,本文总结了任务之间相似性及其紧密程度的判别依据,并且分析了多任务作用机制的有效性和内在成因,从归纳偏置和动态求解等角度阐述了多任务信息迁移的特点。 http://gb.oversea.cnki.net/KCMS/detail/detail.aspx?filename=JSJX20190417000&dbcode=CJFD&dbname=CAPJ2019

成为VIP会员查看完整内容
0
108

本文综述了元学习在图像分类、自然语言处理和机器人技术等领域的应用。与深度学习不同,元学习使用较少的样本数据集,并考虑进一步改进模型泛化以获得更高的预测精度。我们将元学习模型归纳为三类: 黑箱适应模型、基于相似度的方法模型和元学习过程模型。最近的应用集中在将元学习与贝叶斯深度学习和强化学习相结合,以提供可行的集成问题解决方案。介绍了元学习方法的性能比较,并讨论了今后的研究方向。

成为VIP会员查看完整内容
0
147
小贴士
相关VIP内容
专知会员服务
24+阅读 · 1月19日
专知会员服务
20+阅读 · 1月1日
专知会员服务
92+阅读 · 2020年12月5日
专知会员服务
162+阅读 · 2020年11月24日
专知会员服务
43+阅读 · 2020年8月22日
【文本分类大综述:从浅层到深度学习,35页pdf】
专知会员服务
105+阅读 · 2020年8月6日
专知会员服务
110+阅读 · 2020年7月31日
专知会员服务
108+阅读 · 2020年7月10日
专知会员服务
147+阅读 · 2020年5月8日
相关论文
One-Class Classification: A Survey
Pramuditha Perera,Poojan Oza,Vishal M. Patel
5+阅读 · 1月8日
Kemal Oksuz,Baris Can Cam,Emre Akbas,Sinan Kalkan
4+阅读 · 2020年10月23日
Aidan Hogan,Eva Blomqvist,Michael Cochez,Claudia d'Amato,Gerard de Melo,Claudio Gutierrez,José Emilio Labra Gayo,Sabrina Kirrane,Sebastian Neumaier,Axel Polleres,Roberto Navigli,Axel-Cyrille Ngonga Ngomo,Sabbir M. Rashid,Anisa Rula,Lukas Schmelzeisen,Juan Sequeda,Steffen Staab,Antoine Zimmermann
75+阅读 · 2020年3月4日
Bowen Shi,Ming Sun,Krishna C. Puvvada,Chieh-Chi Kao,Spyros Matsoukas,Chao Wang
14+阅读 · 2020年2月21日
Yingtian Zou,Jiashi Feng
4+阅读 · 2019年4月19日
Learning to Weight for Text Classification
Alejandro Moreo Fernández,Andrea Esuli,Fabrizio Sebastiani
8+阅读 · 2019年3月28日
Joaquin Vanschoren
105+阅读 · 2018年10月8日
Few Shot Learning with Simplex
Bowen Zhang,Xifan Zhang,Fan Cheng,Deli Zhao
4+阅读 · 2018年7月27日
Sergey Edunov,Myle Ott,Michael Auli,David Grangier,Marc'Aurelio Ranzato
5+阅读 · 2018年5月24日
Liwei Wu,Cho-Jui Hsieh,James Sharpnack
6+阅读 · 2018年2月28日
Top