由于神经网络的日益普及,对神经网络预测的信心变得越来越重要。然而,基本的神经网络不会给出确定性估计,也不会受到信心过度或不足的影响。许多研究人员一直致力于理解和量化神经网络预测中的不确定性。因此,不同类型和来源的不确定性已被识别,并提出了各种方法来测量和量化神经网络中的不确定性。本工作对神经网络中的不确定性估计进行了全面的概述,综述了该领域的最新进展,突出了当前的挑战,并确定了潜在的研究机会。它旨在给任何对神经网络中的不确定性估计感兴趣的人一个广泛的概述和介绍,而不预设在这一领域有先验知识。对不确定性的主要来源进行了全面的介绍,并将它们分为可约模型不确定性和不可约数据不确定性。本文介绍了基于确定性神经网络、贝叶斯神经网络、神经网络集成和测试时间数据增强等方法对这些不确定性的建模,并讨论了这些领域的不同分支和最新进展。对于实际应用,我们讨论不确定性的不同措施,校准神经网络的方法,并给出现有基线和实现的概述。来自不同领域广泛挑战的不同例子,提供了实际应用中有关不确定性的需求和挑战的概念。此外,讨论了当前用于任务和安全关键的现实世界应用的方法的实际限制,并展望了未来的步骤,以更广泛地使用这些方法。

https://www.zhuanzhi.ai/paper/9a9009dae03438c7a71e0bc1b54de0fa

成为VIP会员查看完整内容
0
30

相关内容

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

摘要:

文本到语音(Text to speech, TTS),即语音合成,是语音、语言和机器学习领域的一个热点研究课题,在业界有着广泛的应用。近年来,随着深度学习和人工智能的发展,基于神经网络的TTS大大提高了合成语音的质量。在本文中,我们对神经TTS进行了一个全面的综述,旨在提供一个良好的研究现状和未来的趋势。我们重点讨论了神经TTS的关键组成部分,包括文本分析、声学模型和声码器,以及一些高级主题,包括快速TTS、低资源TTS、鲁棒TTS、表达性TTS和自适应TTS等。我们进一步总结了与TTS相关的资源(如数据集、开源实现),并讨论了未来的研究方向。这项综述可以服务于从事TTS研究的学术研究者和行业从业者。

引言

文本到语音(Text to speech, TTS),又称语音合成(speech synthesis),旨在从文本中合成出可理解、自然的语音[340],在人类交际[1]中有着广泛的应用,一直是人工智能、自然语言和语音处理领域的研究课题[290,222,144]。开发一个TTS系统需要关于语言和人类语音产生的知识,涉及多个学科,包括语言学[61]、声学[166]、数字信号处理[314]和机器学习[25,143]。

随着深度学习的发展[179,86],基于神经网络的TTS蓬勃发展,针对神经TTS不同方面的大量研究工作应运而生[419,248,376,297,147,264,188,284]。因此,近年来合成语音的质量有了很大的提高。了解目前的研究现状,找出尚未解决的研究问题,对于从事TTS工作的人是非常有帮助的。虽然有多个调查论文统计参数语音合成(418、351、415)和神经TTS(325, 220, 300, 242, 115, 254, 236],全面调查神经TTS的基础知识和最新发展仍然是必要的因为这一领域的主题是多样的和迅速发展。本文对神经系统TTS进行了深入而全面的研究。在接下来的章节中,我们首先简要回顾了TTS技术的发展历史,然后介绍了神经TTS的一些基本知识,最后概述了本研究的概况。

早在12世纪[382],人们就尝试建造机器来合成人类语言。在18世纪下半叶,匈牙利科学家Wolfgang von Kempelen用一系列的风箱、弹簧、风笛和共振箱制造出一些简单的单词和句子[70],制造出了一个会说话的机器。第一个建立在计算机上的语音合成系统出现在20世纪下半叶[382]。早期基于计算机的语音合成方法包括发音合成[52,294]、共振峰合成[293,5,167,168]和串联合成[247,235,291,124,26]。随后,随着统计机器学习的发展,统计参数语音合成(statistical parametric speech synthesis, SPSS)被提出[409,350,418,351],用于预测语音合成的频谱、基频、持续时间等参数。从2010年开始,基于神经网络的语音合成[419,278,76,417,369,187,248,376]逐渐成为语音合成的主导方法,取得了更好的语音质量。

现代的TTS系统由三个基本组件组成:文本分析模块、声学模型和声码器。如图1所示,文本分析模块将文本序列转化为语言特征,声学模型由语言特征生成声学特征,声码器根据声学特征合成波形。我们在第二节中对神经TTS的三个组成部分进行了综述。具体来说,我们首先在第2.1节介绍了神经TTS的基本组成部分的主要分类,然后分别在第2.2节、2.3节和2.4节介绍了文本分析、声学模型和声码器的工作。我们在第2.5节中进一步介绍了对完全端到端TTS的研究。虽然我们主要从神经TTS中关键成分的分类来回顾研究工作,但我们也在2.6节中描述了其他几个分类,包括序列生成的方式(自回归或非自回归)、不同的生成模型和不同的网络结构。此外,我们还在2.6节中说明了一些具有代表性的TTS工作的时间演化。

我们主要从TTS的基本组件(文本分析、声学模型、声码器和完全端到端模型)的角度对神经TTS的工作进行分类,如图3a所示。我们发现这种分类与文本到波形的数据转换流程是一致的:1)文本分析将字符转换为音位或语言特征;2)声学模型从语言特征或字符/音素生成声学特征;3)声码器通过语言特征或声学特征生成波形;4)全端到端模型直接将字符/音素转换成波形。

成为VIP会员查看完整内容
0
17

一旦抽象数学计算被用于数字计算机上的计算,这些计算中数值的有效表示、操作和通信的问题就出现了。与数字表示问题密切相关的是量化问题:一组连续的实数应该以何种方式分布在一组固定的离散数上,以最小化所需的位数,并使伴随的计算的准确性最大化?当内存和/或计算资源受到严重限制时,量化这个长期存在的问题就显得尤为重要。由于神经网络模型在计算机视觉、自然语言处理和相关领域的出色表现,这一问题近年来已经成为一个前沿问题。从浮点表示方式移动到以4位或更少表示的低精度固定整数值可以将内存占用和延迟减少16倍;事实上,4倍到8倍的缩小在这些应用中经常被实现。因此,量化最近作为神经网络计算的有效实现的一个重要和非常活跃的研究子领域出现就不足为奇了。在这篇文章中,我们调研了在深度神经网络计算中量化数值问题的方法,包括当前方法的优点/缺点。通过这个调研和它的组织,我们希望已经提出了一个有用的量化神经网络研究综述,以方便在这一领域的未来研究的拓展。

https://www.zhuanzhi.ai/paper/c451f4f98fbca30e3edee0a9751a0b93

引言

在过去的十年中,我们已经观察到神经网络(NNs)在精度上的显著改进,用于解决广泛的问题,通常是通过高度过参数化的模型实现的。虽然这些过度参数化(因此非常大)的神经网络模型的精度显著提高了,但这些模型的纯粹规模∗相等的贡献。这意味着不可能为许多资源受限的应用程序部署它们。这给在资源受限的环境下实现普适深度学习带来了问题,普适深度学习需要实时推理,具有低能耗和高精度。这种普遍深度学习预计将对实时智能医疗保健监控、自动驾驶、音频分析和语音识别等广泛应用产生重大影响。

要实现高效、实时的、具有最优精度的神经网络,需要重新思考神经网络模型的设计、训练和部署[71]。有大量的文献专注于通过使NN模型更有效(在延迟、内存占用和能量消耗等方面)来解决这些问题,同时仍然提供最佳的准确性/泛化权衡。这些努力可以大致分为以下几类。

a) 设计高效的NN模型架构: 一些工作都集中在优化神经网络模型结构的微架构(101,111,127,167,168,212,253,280](例如,内核类型深度方面卷积或低秩分解等)以及它macro-architecture(100、101、104、110、214、233](如模块类型,例如残差,或inception)。这里的经典技术大多使用手动搜索找到新的体系结构模块,这是不可扩展的。因此,一个新的工作是设计自动机器学习(AutoML)和神经结构搜索(NAS)方法。这些方法的目的是在给定模型尺寸、深度和/或宽度的约束下,自动找到正确的NN架构[161,194,232,245,252,291]。我们向有兴趣的读者推荐[54]来了解NAS方法的最新调查。

b) 协同设计网络架构和硬件: 最近的另一项工作是为特定的目标硬件平台调整(并协同设计)网络架构。这是因为NN组件的开销(在延迟和能量方面)是依赖于硬件的。例如,具有专用缓存层次结构的硬件可以比没有专用缓存层次结构的硬件更有效地执行受带宽限制的操作。与神经网络体系结构设计类似,体系结构-硬件协同设计的最初方法是手动的,即由专家调整/更改神经网络体系结构[70],然后使用自动化的AutoML和/或NAS技术[22,23,100,252]。

c) 剪枝: 另一种减少网络的内存占用和计算成本的方法是运用剪枝。在剪枝过程中,去掉敏感性小的神经元,得到稀疏计算图。这里,具有小显著性的神经元是指那些去除后对模型输出/损失函数影响最小的神经元。剪枝方法可以大致分为非结构剪枝[49,86,139,143,191,257]和结构剪枝[91,106,156,166,274,275,279]。在非结构化剪枝中,我们可以去除那些不太显著的神经元,无论它们在哪里出现。该方法可以进行主动剪枝,去除大部分神经网络参数,对模型的泛化性能影响很小。然而,这种方法导致了稀疏矩阵操作,这是众所周知的难以加速,并且通常是内存受限的[21,66]。另一方面,使用结构化剪枝,一组参数(例如,整个卷积滤波器)被删除。这可以改变层和权重矩阵的输入和输出形状,从而仍然允许密集的矩阵操作。然而,积极的结构修剪往往导致显著的精度退化。具有高水平修剪/稀疏性的训练和推理,同时保持最先进的性能,仍然是一个开放问题[16]。有兴趣的读者请参阅[66,96,134],了解修剪/稀疏性相关工作的详细情况。

d) 知识蒸馏: 模型蒸馏[3,95,150,177,195,207,269,270]涉及训练一个大模型,然后作为教师使用它来训练一个更紧凑的模型。在对学生模型的训练中,不是使用“硬”的类别标签,模型蒸馏的关键思想是利用老师产生的“软”概率,因为这些概率可以包含更多关于输入的信息。尽管在蒸馏方面做了大量的工作,但这里的一个主要挑战是仅用蒸馏就能获得高压缩比。与量化和剪枝相比,在压缩≥4×的情况下(具有INT8和较低的精度),知识蒸馏方法在压缩强度大的情况下具有不可忽略的精度退化。然而,将知识精馏与之前的方法(即量化和剪枝)相结合已经取得了巨大的成功[195]。

e) 量化: 最后,量化方法在神经网络模型的训练和推理方面都表现出了巨大和一致的成功。虽然数字表示和量化的问题和数字计算一样古老,但神经网络提供了独特的改进机会。虽然对量化的研究主要集中在推理方面,但我们应该强调量化在神经网络训练方面取得了重要的成功[10,35,57,130,247]。特别是,半精度和混合精度训练的突破[41,72,79,175]是人工智能加速器实现一个数量级更高吞吐量的主要驱动因素。然而,事实证明,如果没有显著的调整,很难达到半精度以下,而且最近的大多数量化研究都集中在推理上。这种用于推理的量化是本文的重点。

f) 量化和神经科学: 神经网络量化是神经科学领域的一项工作,表明人类大脑以离散/量化的形式存储信息,而不是以连续的形式存储信息[171,236,240]。这一观点的一个普遍理由是,以连续形式存储的信息不可避免地会被噪声(噪声总是存在于物理环境中,包括我们的大脑,它可以由热噪声、感觉噪声、外部噪声、突触噪声等引起)所损坏[27,58]。然而,离散信号表示对这种低水平噪声更有鲁棒性。其他原因,包括离散表示更高的泛化能力[128,138,242]和有限资源下更高的效率[241],也被提出。我们建议读者参考[228]对神经科学文献中相关工作的全面回顾。

成为VIP会员查看完整内容
0
13

人工神经网络在解决特定刚性任务的分类问题时,通过不同训练阶段的广义学习行为获取知识。由此产生的网络类似于一个静态的知识实体,努力扩展这种知识而不针对最初的任务,从而导致灾难性的遗忘。

持续学习将这种范式转变为可以在不同任务上持续积累知识的网络,而不需要从头开始再训练。我们关注任务增量分类,即任务按顺序到达,并由清晰的边界划分。我们的主要贡献包括:

(1) 对持续学习技术的分类和广泛的概述;

(2) 一个持续学习器稳定性-可塑性权衡的新框架;

(3) 对11种最先进的持续学习方法和4条基准进行综合实验比较。

考虑到微型Imagenet和大规模不平衡的非自然主义者以及一系列识别数据集,我们以经验的方式在三个基准上仔细检查方法的优缺点。我们研究了模型容量、权重衰减和衰减正则化的影响,以及任务呈现的顺序,并从所需内存、计算时间和存储空间等方面定性比较了各种方法。

https://www.zhuanzhi.ai/paper/c90f25024b2c2364ce63299b4dc4677f

引言

近年来,据报道,机器学习模型在个人任务上表现出甚至超过人类水平的表现,如雅达利游戏[1]或物体识别[2]。虽然这些结果令人印象深刻,但它们是在静态模型无法适应其行为的情况下获得的。因此,这需要在每次有新数据可用时重新启动训练过程。在我们的动态世界中,这种做法对于数据流来说很快就变得难以处理,或者可能由于存储限制或隐私问题而只能暂时可用。这就需要不断适应和不断学习的系统。人类的认知就是这样一个系统的例证,它具有顺序学习概念的倾向。通过观察例子来重新审视旧的概念可能会发生,但对保存这些知识来说并不是必要的,而且尽管人类可能会逐渐忘记旧的信息,但完全丢失以前的知识很少被证明是[3]。相比之下,人工神经网络则不能以这种方式学习:在学习新概念时,它们会遭遇对旧概念的灾难性遗忘。为了规避这一问题,人工神经网络的研究主要集中在静态任务上,通常通过重组数据来确保i.i.d.条件,并通过在多个时期重新访问训练数据来大幅提高性能。

持续学习研究从无穷无尽的数据流中学习的问题,其目标是逐步扩展已获得的知识,并将其用于未来[4]的学习。数据可以来自于变化的输入域(例如,不同的成像条件),也可以与不同的任务相关联(例如,细粒度的分类问题)。持续学习也被称为终身学习[18]0,[18]1,[18]2,[18]3,[18]5,[18]4,顺序学习[10],[11],[12]或增量学习[13],[14],[15],[16],[17],[18],[19]。主要的标准是学习过程的顺序性质,只有一小部分输入数据来自一个或几个任务,一次可用。主要的挑战是在不发生灾难性遗忘的情况下进行学习:当添加新的任务或域时,之前学习的任务或域的性能不会随着时间的推移而显著下降。这是神经网络中一个更普遍的问题[20]的直接结果,即稳定性-可塑性困境,可塑性指的是整合新知识的能力,以及在编码时保持原有知识的稳定性。这是一个具有挑战性的问题,不断学习的进展使得现实世界的应用开始出现[21]、[22]、[23]。

为了集中注意力,我们用两种方式限制了我们的研究范围。首先,我们只考虑任务增量设置,其中数据按顺序分批到达,一个批对应一个任务,例如要学习的一组新类别。换句话说,我们假设对于一个给定的任务,所有的数据都可以同时用于离线训练。这使得对所有训练数据进行多个时期的学习成为可能,反复洗刷以确保i.i.d.的条件。重要的是,无法访问以前或将来任务的数据。在此设置中优化新任务将导致灾难性的遗忘,旧任务的性能将显著下降,除非采取特殊措施。这些措施在不同情况下的有效性,正是本文所要探讨的。此外,任务增量学习将范围限制为一个多头配置,每个任务都有一个独占的输出层或头。这与所有任务共享一个头的更有挑战性的类增量设置相反。这在学习中引入了额外的干扰,增加了可供选择的输出节点的数量。相反,我们假设已知一个给定的样本属于哪个任务。

其次,我们只关注分类问题,因为分类可以说是人工神经网络最既定的任务之一,使用相对简单、标准和易于理解的网络体系结构具有良好的性能。第2节对设置进行了更详细的描述,第7节讨论了处理更一般设置的开放问题。

成为VIP会员查看完整内容
0
32

深度学习模型在预测失败信号方面表现不佳: 它们往往非常有把握地做出预测,这在现实世界的应用中是有问题的,比如医疗保健、自动驾驶汽车和自然语言系统,这些应用存在相当大的安全隐患,或者在训练数据和模型预测所依据的数据之间存在差异。现在迫切需要了解模型何时不应该进行预测,以及改进模型对数据中自然变化的健壮性。本教程将对深度学习中的不确定性和健壮性进行概述。也就是说,我们检查校准和非分布泛化作为关键任务。然后,我们将深入探讨有希望的途径。这包括平均多个神经网络预测的方法,如贝叶斯神经网络,集成,和高斯过程;在总体参数或预测时间效率方面处于尺度前沿的方法;以及鼓励关键的诱导偏差的方法,如数据增强。我们将这些想法建立在经验理解和理论的基础上,并通过基准和提示和技巧提供实际的建议。最后,我们强调该领域的开放挑战。

https://nips.cc/Conferences/2020/Schedule?showEvent=16649

成为VIP会员查看完整内容
0
31

通过人工神经网络等获得的预测具有很高的准确性,但人类经常将这些模型视为黑盒子。对于人类来说,关于决策制定的洞察大多是不透明的。在医疗保健或金融等高度敏感领域,对决策的理解至关重要。黑盒子背后的决策要求它对人类来说更加透明、可问责和可理解。这篇综述论文提供了基本的定义,概述了可解释监督机器学习(SML)的不同原理和方法。我们进行了最先进的综述,回顾过去和最近可解释的SML方法,并根据介绍的定义对它们进行分类。最后,我们通过一个解释性的案例研究来说明原则,并讨论未来的重要方向。

https://www.zhuanzhi.ai/paper/d34a1111c1ab9ea312570ae8e011903c

目前人工智能(AI)模型的准确性是显著的,但准确性并不是最重要的唯一方面。对于高风险的领域,对模型和输出的详细理解也很重要。底层的机器学习和深度学习算法构建的复杂模型对人类来说是不透明的。Holzinger等人(2019b)指出,医学领域是人工智能面临的最大挑战之一。对于像医疗这样的领域,深刻理解人工智能的应用是至关重要的,对可解释人工智能(XAI)的需求是显而易见的。

可解释性在许多领域很重要,但不是在所有领域。我们已经提到了可解释性很重要的领域,例如卫生保健。在其他领域,比如飞机碰撞避免,算法多年来一直在没有人工交互的情况下运行,也没有给出解释。当存在某种程度的不完整时,需要可解释性。可以肯定的是,不完整性不能与不确定性混淆。不确定性指的是可以通过数学模型形式化和处理的东西。另一方面,不完全性意味着关于问题的某些东西不能充分编码到模型中(Doshi-Velez和Kim(2017))。例如,刑事风险评估工具应该是公正的,它也应该符合人类的公平和道德观念。但伦理学是一个很宽泛的领域,它是主观的,很难正式化。相比之下,飞机避免碰撞是一个很容易理解的问题,也可以被精确地描述。如果一个系统能够很好地避免碰撞,就不用再担心它了。不需要解释。

本文详细介绍了可解释SML的定义,并为该领域中各种方法的分类奠定了基础。我们区分了各种问题定义,将可解释监督学习领域分为可解释模型、代理模型拟合和解释生成。可解释模型的定义关注于自然实现的或通过使用设计原则强制实现的整个模型理解。代理模型拟合方法近似基于黑盒的局部或全局可解释模型。解释生成过程直接产生一种解释,区分局部解释和全局解释。

综上所述,本文的贡献如下:

  • 对五种不同的解释方法进行形式化,并对整个解释链的相应文献(分类和回归)进行回顾。
  • 可解释性的原因,审查重要领域和可解释性的评估
  • 这一章仅仅强调了围绕数据和可解释性主题的各个方面,比如数据质量和本体
  • 支持理解不同解释方法的连续用例
  • 回顾重要的未来方向和讨论

成为VIP会员查看完整内容
0
67

在优化和决策过程中,不确定性量化(UQ)在减少不确定性方面起着至关重要的作用。它可以应用于解决科学和工程中的各种实际应用。贝叶斯逼近和集成学习技术是目前文献中使用最广泛的两种UQ方法。在这方面,研究者们提出了不同的UQ方法,并在计算机视觉(如自动驾驶汽车和目标检测)、图像处理(如图像恢复)、医学图像分析(如医学图像分类和分割)、自然语言处理(如文本分类、社交媒体文本和再犯风险评分)、生物信息学得到广泛应用。本研究综述了UQ方法在深度学习中的最新进展。此外,我们还研究了这些方法在强化学习(RL)中的应用。然后,我们概述了UQ方法的几个重要应用。最后,我们简要地强调了UQ方法面临的基本研究挑战,并讨论了该领域的未来研究方向。

https://arxiv.org/abs/2011.06225

摘要:

在日常情景中,我们处理很多领域的不确定性,从投资机会和医疗诊断到体育比赛和天气预报,目的是根据收集的观察和不确定的领域知识进行决策。现在,我们可以依靠使用机器和深度学习技术开发的模型来量化不确定性来完成统计推断[1]。在人工智能(AI)系统使用[2]之前,对其效能进行评估是非常重要的。这种模型的预测具有不确定性,除了存在不确定性的归纳假设外,还容易出现噪声和错误的模型推断。因此,在任何基于人工智能的系统中,以一种值得信赖的方式表示不确定性是非常可取的。通过有效地处理不确定性,这样的自动化系统应该能够准确地执行。不确定性因素在人工智能中扮演着重要的角色

不确定性的来源是当测试和训练数据不匹配,由于类重叠或由于数据[6]中存在噪声而产生的不确定性。估计知识的不确定性要比数据的不确定性困难得多,数据的不确定性自然是通过极大似然训练来度量的。预测中的不确定性来源对于解决不确定性估计问题[7]至关重要。不确定性有两个主要来源,在概念上称为aleatoric和epistemic不确定性8

数据中的不可约不确定性导致预测中的不确定性是一种可选不确定性(也称为数据不确定性)。这种类型的不确定性不是模型的属性,而是数据分布的固有属性;因此它是不可约的。不确定性的另一种类型是认知不确定性(也称为知识不确定性),它是由于知识和数据的不足而产生的。人们可以定义模型来回答基于模型预测中的不同人类问题。在数据丰富的情况下,有大量的数据收集,但它可能是信息差的[10]。在这种情况下,可以使用基于人工智能的方法定义有效的模型,表征数据特征。通常这些数据是不完整的,有噪声的,不一致的和多模态的[1]。

不确定性量化(UQ)是当今许多关键决策的基础。没有UQ的预测通常是不可靠和不准确的。为了理解深度学习(DL)[11],[12]过程生命周期,我们需要理解UQ在DL中的作用。DL模型首先收集可用于决策过程的最全面和潜在相关的数据集。DL场景的设计是为了满足某些性能目标,以便在使用标记数据训练模型之后选择最合适的DL架构。迭代训练过程优化不同的学习参数,这些参数将被“调整”,直到网络提供令人满意的性能水平。

在涉及的步骤中,有几个不确定因素需要加以量化。很明显的不确定性这些步骤如下:(i)选择和训练数据的集合,(ii)训练数据的完整性和准确性,(3)理解DL(或传统机器学习)模型与性能范围及其局限性,和(iv)不确定性对应基于操作数据的性能模型[13]。数据驱动的方法,如与UQ相关的DL提出了至少四组重叠的挑战:(1)缺乏理论,(2)缺乏临时模型,(3)对不完美数据的敏感性,以及(4)计算费用。为了缓解这些挑战,有时会采用模型变异性研究和敏感性分析等特殊解决方案。不确定性估计和量化在数字学习和传统机器学习中得到了广泛的研究。在下面,我们提供一些最近的研究的简要总结,这些研究检验了处理不确定性的各种方法的有效性。

图2给出了三种不同不确定度模型[9](MC dropout, Boostrap模型和GMM模型)的示意图比较。此外,不确定性感知模型(BNN)与OoD分类器的两种图形表示如图3所示。

在大数据时代,ML和DL,智能使用不同的原始数据有巨大的潜力,造福于广泛的领域。然而,UQ在不同的ML和DL方法可以显著提高其结果的可靠性。Ning等人总结并分类了不确定性下数据驱动优化范式的主要贡献。可以看出,本文只回顾了数据驱动的优化。在另一项研究中,Kabir等人[16]回顾了基于神经网络的UQ。作者关注概率预测和预测区间(pi),因为它们是UQ文献中最广泛使用的技术之一。

我们注意到,从2010年到2020年(6月底),在各个领域(如计算机视觉、图像处理、医学图像分析、信号处理、自然语言处理等)发表了超过2500篇关于AI中UQ的论文。与以往UQ领域的文献综述不同,本研究回顾了最近发表的使用不同方法定量AI (ML和DL)不确定性的文章。另外,我们很想知道UQ如何影响真实案例,解决AI中的不确定性有助于获得可靠的结果。与此同时,在现有的研究方法中寻找重要的谈话是一种很好的方式,为未来的研究指明方向。在这方面,本文将为ML和DL中UQ的未来研究人员提供更多的建议。我们调查了UQ领域应用于ML和DL方法的最新研究。因此,我们总结了ML和DL中UQ的一些现有研究。值得一提的是,本研究的主要目的并不是比较提出的不同UQ方法的性能,因为这些方法是针对不同的数据和特定的任务引入的。由于这个原因,我们认为比较所有方法的性能超出了本研究的范围。因此,本研究主要关注DL、ML和强化学习(RL)等重要领域。因此,本研究的主要贡献如下:

  • 据我们所知,这是第一篇关于ML和DL方法中使用的UQ方法的全面综述论文,值得该领域的研究人员使用。
  • 对新提出的UQ方法进行了全面调研。
  • 此外,UQ方法的重要应用的主要类别也进行了介绍
  • 指出了UQ方法的主要研究空白。
  • 最后,讨论了很少确定的未来发展方向。
成为VIP会员查看完整内容
0
55

深度学习算法已经在图像分类方面取得了最先进的性能,甚至被用于安全关键应用,如生物识别系统和自动驾驶汽车。最近的研究表明,这些算法甚至可以超越人类的能力,很容易受到对抗性例子的攻击。在计算机视觉中,与之相对的例子是恶意优化算法为欺骗分类器而产生的含有细微扰动的图像。为了缓解这些漏洞,文献中不断提出了许多对策。然而,设计一种有效的防御机制已被证明是一项困难的任务,因为许多方法已经证明对自适应攻击者无效。因此,这篇自包含的论文旨在为所有的读者提供一篇关于图像分类中对抗性机器学习的最新研究进展的综述。本文介绍了新的对抗性攻击和防御的分类方法,并讨论了对抗性实例的存在性。此外,与现有的调查相比,它还提供了相关的指导,研究人员在设计和评估防御时应该考虑到这些指导。最后,在文献综述的基础上,对未来的研究方向进行了展望。

https://www.zhuanzhi.ai/paper/396e587564dc2922d222cd3ac7b84288

成为VIP会员查看完整内容
0
43

当前的深度学习研究以基准评价为主。如果一种方法在专门的测试集上有良好的经验表现,那么它就被认为是有利的。这种心态无缝地反映在持续学习的重现领域,在这里研究的是持续到达的基准数据集。核心挑战是如何保护之前获得的表示,以免由于迭代参数更新而出现灾难性地遗忘的情况。然而,各个方法的比较是与现实应用程序隔离的,通常通过监视累积的测试集性能来判断。封闭世界的假设仍然占主导地位。假设在部署过程中,一个模型保证会遇到来自与用于训练的相同分布的数据。这带来了一个巨大的挑战,因为众所周知,神经网络会对未知的实例提供过于自信的错误预测,并在数据损坏的情况下崩溃。在这个工作我们认为值得注意的教训来自开放数据集识别,识别的统计偏差以外的数据观测数据集,和相邻的主动学习领域,数据增量查询等预期的性能收益最大化,这些常常在深度学习的时代被忽略。基于这些遗忘的教训,我们提出了一个统一的观点,以搭建持续学习,主动学习和开放集识别在深度神经网络的桥梁。我们的结果表明,这不仅有利于每个个体范式,而且突出了在一个共同框架中的自然协同作用。我们从经验上证明了在减轻灾难性遗忘、主动学习中查询数据、选择任务顺序等方面的改进,同时在以前提出的方法失败的地方展示了强大的开放世界应用。

https://www.zhuanzhi.ai/paper/e5bee7a1e93a93ef9139966643317e1c

概述:

随着实用机器学习系统的不断成熟,社区发现了对持续学习[1]、[2]的兴趣。与广泛练习的孤立学习不同,在孤立学习中,系统的算法训练阶段被限制在一个基于先前收集的i.i.d数据集的单一阶段,持续学习需要利用随着时间的推移而到来的数据的学习过程。尽管这种范式已经在许多机器学习系统中找到了各种应用,回顾一下最近关于终身机器学习[3]的书,深度学习的出现似乎已经将当前研究的焦点转向了一种称为“灾难性推理”或“灾难性遗忘”的现象[4],[5],正如最近的评论[6],[7],[8],[9]和对深度持续学习[8],[10],[11]的实证调查所表明的那样。后者是机器学习模型的一个特殊效应,机器学习模型贪婪地根据给定的数据群更新参数,比如神经网络迭代地更新其权值,使用随机梯度估计。当包括导致数据分布发生任何变化的不断到达的数据时,学习到的表示集被单向引导,以接近系统当前公开的数据实例上的任何任务的解决方案。自然的结果是取代以前学到的表征,导致突然忘记以前获得的信息。

尽管目前的研究主要集中在通过专门机制的设计来缓解持续深度学习中的这种遗忘,但我们认为,一种非常不同形式的灾难性遗忘的风险正在增长,即忘记从过去的文献中吸取教训的危险。尽管在连续的训练中保留神经网络表示的努力值得称赞,但除了只捕获灾难性遗忘[12]的度量之外,我们还高度关注了实际的需求和权衡,例如包括内存占用、计算成本、数据存储成本、任务序列长度和训练迭代次数等。如果在部署[14]、[15]、[16]期间遇到看不见的未知数据或小故障,那么大多数当前系统会立即崩溃,这几乎可以被视为误导。封闭世界的假设似乎无所不在,即认为模型始终只会遇到与训练过程中遇到的数据分布相同的数据,这在真实的开放世界中是非常不现实的,因为在开放世界中,数据可以根据不同的程度变化,而这些变化是不现实的,无法捕获到训练集中,或者用户能够几乎任意地向系统输入预测信息。尽管当神经网络遇到不可见的、未知的数据实例时,不可避免地会产生完全没有意义的预测,这是众所周知的事实,已经被暴露了几十年了,但是当前的努力是为了通过不断学习来规避这一挑战。选择例外尝试解决识别不可见的和未知的示例、拒绝荒谬的预测或将它们放在一边供以后使用的任务,通常总结在开放集识别的伞下。然而,大多数现有的深度连续学习系统仍然是黑盒,不幸的是,对于未知数据的错误预测、数据集的异常值或常见的图像损坏[16],这些系统并没有表现出理想的鲁棒性。

除了目前的基准测试实践仍然局限于封闭的世界之外,另一个不幸的趋势是对创建的持续学习数据集的本质缺乏理解。持续生成模型(如[17]的作者的工作,[18],[19],[20],[21],[22]),以及类增量持续学习的大部分工作(如[12]中给出的工作,[23],[24],[25],[26],[27],[28])一般调查sequentialized版本的经过时间考验的视觉分类基准如MNIST [29], CIFAR[30]或ImageNet[31],单独的类只是分成分离集和序列所示。为了在基准中保持可比性,关于任务排序的影响或任务之间重叠的影响的问题通常会被忽略。值得注意的是,从邻近领域的主动机器学习(半监督学习的一种特殊形式)中吸取的经验教训,似乎并没有整合到现代的连续学习实践中。在主动学习中,目标是学会在让系统自己查询接下来要包含哪些数据的挑战下,逐步地找到与任务解决方案最接近的方法。因此,它可以被视为缓解灾难性遗忘的对抗剂。当前的持续学习忙于维护在每个步骤中获得的信息,而不是无休止地积累所有的数据,而主动学习则关注于识别合适的数据以纳入增量训练系统的补充问题。尽管在主动学习方面的早期开创性工作已经迅速识别出了通过使用启发式[32]、[33]、[34]所面临的强大应用的挑战和陷阱,但后者在深度学习[35]、[36]、[37]、[38]的时代再次占据主导地位,这些挑战将再次面临。

在这项工作中,我们第一次努力建立一个原则性和巩固的深度持续学习、主动学习和在开放的世界中学习的观点。我们首先单独回顾每一个主题,然后继续找出在现代深度学习中似乎较少受到关注的以前学到的教训。我们将继续争论,这些看似独立的主题不仅从另一个角度受益,而且应该结合起来看待。在这个意义上,我们建议将当前的持续学习实践扩展到一个更广泛的视角,将持续学习作为一个总括性术语,自然地包含并建立在先前的主动学习和开放集识别工作之上。本文的主要目的并不是引入新的技术或提倡一种特定的方法作为通用的解决方案,而是对最近提出的神经网络[39]和[40]中基于变分贝叶斯推理的方法进行了改进和扩展,以说明一种走向全面框架的可能选择。重要的是,它作为论证的基础,努力阐明生成建模作为深度学习系统关键组成部分的必要性。我们强调了在这篇论文中发展的观点的重要性,通过实证证明,概述了未来研究的含义和有前景的方向。

成为VIP会员查看完整内容
0
90

​【导读】图像分类是计算机视觉中的基本任务之一,深度学习的出现是的图像分类技术趋于完善。最近,自监督学习与预训练技术的发展使得图像分类技术出现新的变化,这篇论文概述了最新在实际情况中少标签小样本等情况下,关于自监督学习、半监督、无监督方法的综述,值得看!

地址:

https://www.zhuanzhi.ai/paper/6d160a5f8634d25a2feda7a30e1e5132

摘要

虽然深度学习策略在计算机视觉任务中取得了突出的成绩,但仍存在一个问题。目前的策略严重依赖于大量的标记数据。在许多实际问题中,创建这么多标记的训练数据是不可行的。因此,研究人员试图将未标记的数据纳入到培训过程中,以获得与较少标记相同的结果。由于有许多同时进行的研究,很难掌握最近的发展情况。在这项调查中,我们提供了一个概述,常用的技术和方法,在图像分类与较少的标签。我们比较了21种方法。在我们的分析中,我们确定了三个主要趋势。1. 基于它们的准确性,现有技术的方法可扩展到实际应用中。2. 为了达到与所有标签的使用相同的结果所需要的监督程度正在降低。3.所有方法都共享公共技术,只有少数方法结合这些技术以获得更好的性能。基于这三个趋势,我们发现了未来的研究机会。

1. 概述

深度学习策略在计算机视觉任务中取得了显著的成功。它们在图像分类、目标检测或语义分割等各种任务中表现最佳。

图1: 这张图说明并简化了在深度学习训练中使用未标记数据的好处。红色和深蓝色的圆圈表示不同类的标记数据点。浅灰色的圆圈表示未标记的数据点。如果我们只有少量的标记数据可用,我们只能对潜在的真实分布(黑线)做出假设(虚线)。只有同时考虑未标记的数据点并明确决策边界,才能确定这种真实分布。

深度神经网络的质量受到标记/监督图像数量的强烈影响。ImageNet[26]是一个巨大的标记数据集,它允许训练具有令人印象深刻的性能的网络。最近的研究表明,即使比ImageNet更大的数据集也可以改善这些结果。但是,在许多实际的应用程序中,不可能创建包含数百万张图像的标记数据集。处理这个问题的一个常见策略是迁移学习。这种策略甚至可以在小型和专门的数据集(如医学成像[40])上改进结果。虽然这对于某些应用程序来说可能是一个实际的解决方案,但基本问题仍然存在: 与人类不同,监督学习需要大量的标记数据。

对于给定的问题,我们通常可以访问大量未标记的数据集。Xie等人是最早研究无监督深度学习策略来利用这些数据[45]的人之一。从那时起,未标记数据的使用被以多种方式研究,并创造了研究领域,如半监督、自我监督、弱监督或度量学习[23]。统一这些方法的想法是,在训练过程中使用未标记的数据是有益的(参见图1中的说明)。它要么使很少有标签的训练更加健壮,要么在某些不常见的情况下甚至超过了监督情况下的性能[21]。

由于这一优势,许多研究人员和公司在半监督、自我监督和非监督学习领域工作。其主要目标是缩小半监督学习和监督学习之间的差距,甚至超越这些结果。考虑到现有的方法如[49,46],我们认为研究处于实现这一目标的转折点。因此,在这个领域有很多正在进行的研究。这项综述提供了一个概述,以跟踪最新的在半监督,自监督和非监督学习的方法。

大多数综述的研究主题在目标、应用上下文和实现细节方面存在差异,但它们共享各种相同的思想。这项调查对这一广泛的研究课题进行了概述。这次调查的重点是描述这两种方法的异同。此外,我们还将研究不同技术的组合。

2. 图像分类技术

在这一节中,我们总结了关于半监督、自监督和非监督学习的一般概念。我们通过自己对某些术语的定义和解释来扩展这一总结。重点在于区分可能的学习策略和最常见的实现策略的方法。在整个综述中,我们使用术语学习策略,技术和方法在一个特定的意义。学习策略是算法的一般类型/方法。我们把论文方法中提出的每个算法都称为独立算法。方法可以分为学习策略和技术。技术是组成方法/算法的部分或思想。

2.1 分类方法

监督、半监督和自我监督等术语在文献中经常使用。很少有人给出明确的定义来区分这两个术语。在大多数情况下,一个粗略的普遍共识的意义是充分的,但我们注意到,在边界情况下的定义是多种多样的。为了比较不同的方法,我们需要一个精确的定义来区分它们。我们将总结关于学习策略的共识,并定义我们如何看待某些边缘案例。一般来说,我们根据使用的标记数据的数量和训练过程监督的哪个阶段来区分方法。综上所述,我们把半监督策略、自我学习策略和无监督学习策略称为reduced减约监督学习策略。图2展示了四种深度学习策略。

图2: 插图的四个深学习策略——红色和深蓝色的圆圈表示标记数据点不同的类。浅灰色的圆圈表示未标记的数据点。黑线定义了类之间的基本决策边界。带条纹的圆圈表示在训练过程的不同阶段忽略和使用标签信息的数据点。

监督学习 Supervised Learning

监督学习是深度神经网络图像分类中最常用的方法。我们有一组图像X和对应的标签或类z。设C为类别数,f(X)为X∈X的某个神经网络的输出,目标是使输出与标签之间的损失函数最小化。测量f(x)和相应的z之间的差的一个常用的损失函数是交叉熵。

迁移学习

监督学习的一个限制因素是标签的可用性。创建这些标签可能很昂贵,因此限制了它们的数量。克服这一局限的一个方法是使用迁移学习。

迁移学习描述了训练神经网络的两个阶段的过程。第一个阶段是在大型通用数据集(如ImageNet[26])上进行有无监督的训练。第二步是使用经过训练的权重并对目标数据集进行微调。大量的文献表明,即使在小的领域特定数据集[40]上,迁移学习也能改善和稳定训练。

半监督学习

半监督学习是无监督学习和监督学习的混合.

Self-supervised 自监督学习

自监督使用一个借托pretext任务来学习未标记数据的表示。借托pretext任务是无监督的,但学习表征往往不能直接用于图像分类,必须进行微调。因此,自监督学习可以被解释为一种无监督的、半监督的或其自身的一种策略。我们将自我监督学习视为一种特殊的学习策略。在下面,我们将解释我们是如何得出这个结论的。如果在微调期间需要使用任何标签,则不能将该策略称为无监督的。这与半监督方法也有明显的区别。标签不能与未标记的数据同时使用,因为借托pretext任务是无监督的,只有微调才使用标签。对我们来说,将标记数据的使用分离成两个不同的子任务本身就是一种策略的特征。

2.2 分类技术集合

在减少监督的情况下,可以使用不同的技术来训练模型。在本节中,我们将介绍一些在文献中多种方法中使用的技术。

一致性正则化 Consistency regularization

一个主要的研究方向是一致性正则化。在半监督学习过程中,这些正则化被用作数据非监督部分的监督损失的附加损失。这种约束导致了改进的结果,因为在定义决策边界时可以考虑未标记的数据[42,28,49]。一些自监督或无监督的方法甚至更进一步,在训练中只使用这种一致性正则化[21,2]。

虚拟对抗性训练(VAT)

VAT[34]试图通过最小化图像与转换后的图像之间的距离,使预测不受小转换的影响。

互信息(MI)

MI定义为联合分布和边缘分布[8]之间的Kullback Leiber (KL)散度。

熵最小化(EntMin)

Grandvalet和Bengio提出通过最小化熵[15]来提高半监督学习的输出预测。

Overclustering

过度聚类在减少监督的情况下是有益的,因为神经网络可以自行决定如何分割数据。这种分离在有噪声的数据中或在中间类被随机分为相邻类的情况下是有用的。

Pseudo-Labels

一种估计未知数据标签的简单方法是伪标签

3. 图像分类模型

3.1 半监督学习

四种选择的半监督方法的图解——使用的方法在每张图像下面给出。输入在左边的蓝色方框中给出。在右侧提供了该方法的说明。一般来说,这个过程是自上而下组织的。首先,输入图像经过无或两个不同的随机变换预处理。自动增广[9]是一种特殊的增广技术。下面的神经网络使用这些预处理图像(x, y)作为输入。损失的计算(虚线)对于每种方法都是不同的,但是共享公共部分。所有的方法都使用了标记和预测分布之间的交叉熵(CE)。所有的方法还使用了不同预测输出分布(Pf(x), Pf(y))之间的一致性正则化。

3.2 自监督学习

四种选择的自我监督方法的图解——使用的方法在每张图像下面给出。输入在左边的红色方框中给出。在右侧提供了该方法的说明。微调部分不包括在内。一般来说,这个过程是自上而下组织的。首先,对输入图像进行一两次随机变换预处理或分割。下面的神经网络使用这些预处理图像(x, y)作为输入。损失的计算(虚线)对于每种方法都是不同的。AMDIM和CPC使用网络的内部元素来计算损失。DeepCluster和IIC使用预测的输出分布(Pf(x)、Pf(y))来计算损耗

3.3 21种图像分类方法比较

21种图像分类方法及其使用技术的概述——在左侧,第3节中回顾的方法按学习策略排序。第一行列出了在2.2小节中讨论过的可能的技术。根据是否可以使用带标签的数据,将这些技术分为无监督技术和有监督技术。技术的缩写也在第2.2小节中给出。交叉熵(Cross-entropy, CE)将CE的使用描述为训练损失的一部分。微调(FT)描述了交叉熵在初始训练后(例如在一个借口任务中)对新标签的使用。(X)指该技术不是直接使用,而是间接使用。个别的解释由所指示的数字给出。1 - MixMatch通过锐化预测[3],隐式地实现了熵最小化。2 - UDA预测用于过滤无监督数据的伪标签。3 -尽量减少相互信息的目的作为借口任务,例如视图之间的[2]或层之间的[17]。4 -信息的丢失使相互信息间接[43]最大化。5 - Deep Cluster使用K-Means计算伪标签,以优化分配为借口任务。6 - DAC使用元素之间的余弦距离来估计相似和不相似的项。可以说DAC为相似性问题创建了伪标签。

4. 实验比较结果

报告准确度的概述——第一列说明使用的方法。对于监督基线,我们使用了最好的报告结果,作为其他方法的基线。原始论文在准确度后的括号内。第二列给出了体系结构及其参考。第三列是预印本的出版年份或发行年份。最后四列报告了各自数据集的最高准确度分数%。

5 结论

在本文中,我们概述了半监督、自监督和非监督技术。我们用21种不同的方法分析了它们的异同和组合。这项分析确定了几个趋势和可能的研究领域。

我们分析了不同学习策略(半监督学习策略、自监督学习策略和无监督学习策略)的定义,以及这些学习策略中的常用技术。我们展示了这些方法一般是如何工作的,它们使用哪些技术,以及它们可以被归类为哪种策略。尽管由于不同的体系结构和实现而难以比较这些方法的性能,但我们确定了三个主要趋势。

ILSVRC-2012的前5名正确率超过90%,只有10%的标签表明半监督方法适用于现实问题。然而,像类别不平衡这样的问题并没有被考虑。未来的研究必须解决这些问题。

监督和半监督或自监督方法之间的性能差距正在缩小。有一个数据集甚至超过了30%。获得可与全监督学习相比的结果的标签数量正在减少。未来的研究可以进一步减少所需标签的数量。我们注意到,随着时间的推移,非监督方法的使用越来越少。这两个结论使我们认为,无监督方法在未来的现实世界中对图像分类将失去意义。

我们的结论是,半监督和自监督学习策略主要使用一套不同的技术。通常,这两种策略都使用不同技术的组合,但是这些技术中很少有重叠。S4L是目前提出的唯一一种消除这种分离的方法。我们确定了不同技术的组合有利于整体性能的趋势。结合技术之间的微小重叠,我们确定了未来可能的研究机会。

参考文献:

[1] B. Athiwaratkun, M. Finzi, P. Izmailov, and A. G. Wilson. There are many consistent explanations of unlabeled data: Why you should average. In International Conference on Learning Representations, 2019.

[2] P. Bachman, R. D. Hjelm, and W. Buchwalter. Learning representations by maximizing mutual information across views. In Advances in Neural Information Processing Systems, pages 15509–15519, 2019.

[3] D. Berthelot, N. Carlini, I. Goodfellow, N. Papernot, A. Oliver, and C. A. Raffel. Mixmatch: A holistic approach to semi-supervised learning. In Advances in Neural Information Processing Systems, pages 5050–5060, 2019.

[4] M. Caron, P. Bojanowski, A. Joulin, and M. Douze. Deep clustering for unsupervised learning of visual features. In Proceedings of the European Conference on Computer Vision (ECCV), pages 132–149, 2018.

[5] J. Chang, L. Wang, G. Meng, S. Xiang, and C. Pan. Deep adaptive image clustering. 2017 IEEE International Conference on Computer Vision (ICCV), pages 5880–5888, 2017.

成为VIP会员查看完整内容
0
117
小贴士
相关论文
Shaoxiong Ji,Shirui Pan,Erik Cambria,Pekka Marttinen,Philip S. Yu
18+阅读 · 1月17日
Aidan Hogan,Eva Blomqvist,Michael Cochez,Claudia d'Amato,Gerard de Melo,Claudio Gutierrez,José Emilio Labra Gayo,Sabrina Kirrane,Sebastian Neumaier,Axel Polleres,Roberto Navigli,Axel-Cyrille Ngonga Ngomo,Sabbir M. Rashid,Anisa Rula,Lukas Schmelzeisen,Juan Sequeda,Steffen Staab,Antoine Zimmermann
79+阅读 · 2020年3月4日
Qingyu Guo,Fuzhen Zhuang,Chuan Qin,Hengshu Zhu,Xing Xie,Hui Xiong,Qing He
78+阅读 · 2020年2月28日
Guanglin Niu,Yongfei Zhang,Bo Li,Peng Cui,Si Liu,Jingyang Li,Xiaowei Zhang
7+阅读 · 2019年12月28日
Chao Zhang,Zichao Yang,Xiaodong He,Li Deng
60+阅读 · 2019年11月10日
Domain Representation for Knowledge Graph Embedding
Cunxiang Wang,Feiliang Ren,Zhichao Lin,Chenxv Zhao,Tian Xie,Yue Zhang
9+阅读 · 2019年9月11日
Xuelu Chen,Muhao Chen,Weijia Shi,Yizhou Sun,Carlo Zaniolo
3+阅读 · 2018年11月26日
William L. Hamilton,Rex Ying,Jure Leskovec
3+阅读 · 2018年4月10日
Daniel Oñoro-Rubio,Mathias Niepert,Alberto García-Durán,Roberto González,Roberto J. López-Sastre
9+阅读 · 2018年3月31日
Top