主动学习是机器学习(更普遍的说是人工智能)的一个子领域,在统计学领域也叫查询学习、最优实验设计。“学习模块”和“选择策略”是主动学习算法的2个基本且重要的模块。 主动学习是“一种学习方法,在这种方法中,学生会主动或体验性地参与学习过程,并且根据学生的参与程度,有不同程度的主动学习。” (Bonwell&Eison 1991)Bonwell&Eison(1991) 指出:“学生除了被动地听课以外,还从事其他活动。” 在高等教育研究协会(ASHE)的一份报告中,作者讨论了各种促进主动学习的方法。他们引用了一些文献,这些文献表明学生不仅要做听,还必须做更多的事情才能学习。他们必须阅读,写作,讨论并参与解决问题。此过程涉及三个学习领域,即知识,技能和态度(KSA)。这种学习行为分类法可以被认为是“学习过程的目标”。特别是,学生必须从事诸如分析,综合和评估之类的高级思维任务。

VIP内容

主动学习试图在具有尽可能少标注样本的同时最大化模型的性能增益。深度学习(Deep learning, DL)需要大量标注数据,如果模型要学习如何提取高质量的特征,就需要大量的数据供应来优化大量的参数。近年来,由于互联网技术的飞速发展,我们进入了一个以海量可用数据为特征的信息丰富性时代。因此,DL得到了研究者的极大关注,并得到了迅速的发展。但与DL相比,研究者对AL的兴趣相对较低,这主要是因为在DL兴起之前,传统机器学习需要的标记样本相对较少,这意味着早期的AL很少被赋予应有的价值。虽然DL在各个领域都取得了突破,但大部分的成功都要归功于大量公开的带标注的数据集。然而,获取大量高质量的带注释数据集需要耗费大量人力,在需要较高专业知识水平的领域(如语音识别、信息提取、医学图像等)是不可行的,因此AL逐渐得到了它应该得到的重视。

因此,研究是否可以使用AL来降低数据标注的成本,同时保留DL强大的学习能力是很自然的。由于这些调研的结果,深度主动学习(DAL)出现了。虽然对这一课题的研究相当丰富,但至今还没有对相关著作进行全面的调研; 因此,本文旨在填补这一空白。我们为现有的工作提供了一个正式的分类方法,以及一个全面和系统的概述。此外,我们还从应用的角度对DAL的发展进行了分析和总结。最后,我们讨论了与DAL相关的问题,并提出了一些可能的发展方向。

概述:

深度学习(DL)和主动学习(AL)在机器学习领域都有重要的应用。由于其优良的特性,近年来引起了广泛的研究兴趣。更具体地说,DL在各种具有挑战性的任务上取得了前所未有的突破;然而,这很大程度上是由于大量标签数据集的发表[16,87]。因此,在一些需要丰富知识的专业领域,样品标注成本高限制了DL的发展。相比之下,一种有效的AL算法在理论上可以实现标注效率的指数加速。这将极大地节省数据标注成本。然而,经典的AL算法也难以处理高维数据[160]。因此,DL和AL的结合被称为DAL,有望取得更好的效果。DAL被广泛应用于多个领域,包括图像识别[35,47,53,68],文本分类[145,180,185],视觉答题[98],目标检测[3,39,121]等。虽然已经发表了丰富的相关工作,DAL仍然缺乏一个统一的分类框架。为了填补这一空白,在本文中,我们将全面概述现有的DAL相关工作,以及一种正式的分类方法。下面我们将简要回顾DL和AL在各自领域的发展现状。随后,在第二节中,进一步阐述了DL与AL结合的必要性和挑战。

图1所示。DL、AL和DAL的典型体系结构比较。(a)一种常见的DL模型:卷积神经网络。(b) 基于池化的AL框架: 使用查询策略查询未标记的样本池U和将其交给oracle进行标注,然后将查询样本添加到标记的训练数据集L,然后使用新学到的知识查询的下一轮。重复此过程,直到标签预算耗尽或达到预定义的终止条件。(c) DAL的一个典型例子:在标签训练集L0上初始化或预训练DL模型的参数的常变量,利用未标记池U的样本通过DL模型提取特征。然后根据相应的查询策略选择样本,在查询时对标签进行查询,形成新的标签训练集L,然后在L上训练DL模型,同时更新U。重复此过程,直到标签预算耗尽或达到预定义的终止条件。

DAL结合了DL和AL的共同优势:它不仅继承了DL处理高维图像数据和自动提取特征的能力,也继承了AL有效降低标注成本的潜力。因此,DAL具有令人着迷的潜力,特别是在标签需要高水平的专业知识和难以获得的领域。

成为VIP会员查看完整内容
0
36

最新内容

Active learning - the field of machine learning (ML) dedicated to optimal experiment design, has played a part in science as far back as the 18th century when Laplace used it to guide his discovery of celestial mechanics [1]. In this work we focus a closed-loop, active learning-driven autonomous system on another major challenge, the discovery of advanced materials against the exceedingly complex synthesis-processes-structure-property landscape. We demonstrate autonomous research methodology (i.e. autonomous hypothesis definition and evaluation) that can place complex, advanced materials in reach, allowing scientists to fail smarter, learn faster, and spend less resources in their studies, while simultaneously improving trust in scientific results and machine learning tools. Additionally, this robot science enables science-over-the-network, reducing the economic impact of scientists being physically separated from their labs. We used the real-time closed-loop, autonomous system for materials exploration and optimization (CAMEO) at the synchrotron beamline to accelerate the fundamentally interconnected tasks of rapid phase mapping and property optimization, with each cycle taking seconds to minutes, resulting in the discovery of a novel epitaxial nanocomposite phase-change memory material.

0
0
下载
预览

最新论文

Active learning - the field of machine learning (ML) dedicated to optimal experiment design, has played a part in science as far back as the 18th century when Laplace used it to guide his discovery of celestial mechanics [1]. In this work we focus a closed-loop, active learning-driven autonomous system on another major challenge, the discovery of advanced materials against the exceedingly complex synthesis-processes-structure-property landscape. We demonstrate autonomous research methodology (i.e. autonomous hypothesis definition and evaluation) that can place complex, advanced materials in reach, allowing scientists to fail smarter, learn faster, and spend less resources in their studies, while simultaneously improving trust in scientific results and machine learning tools. Additionally, this robot science enables science-over-the-network, reducing the economic impact of scientists being physically separated from their labs. We used the real-time closed-loop, autonomous system for materials exploration and optimization (CAMEO) at the synchrotron beamline to accelerate the fundamentally interconnected tasks of rapid phase mapping and property optimization, with each cycle taking seconds to minutes, resulting in the discovery of a novel epitaxial nanocomposite phase-change memory material.

0
0
下载
预览
父主题
Top