论文摘要:本文基于方差缩减、拒绝采样、访存优化等技术,研究了隐变量模型和深度表示学习两类模型的高效算法,并研究了这些算法在文本分析、生成式模型、图节 点分类等多个任务中的应用。具体地,本文创新点有:

  • 提出隐变量模型的方差缩减 EM 算法,并给出了其局部收敛速度和全局收敛性的理论结果。
  • 提出了缓存高效的 O(1) 时间复杂度主题模型采样算法,该算法较之前算法提速了 5-15 倍,且能扩展到数亿文档、数百万主题、上万 CPU 核的场景。
  • 提出了结构化主题模型的高效算法,具体包括层次化主题模型的部分坍缩吉 布斯采样算法,将该模型扩展到了比之前大5个数量级的数据集上;以及有监督主题模型的坐标下降、拒绝采样算法,较之前算法加速4倍。
  • 提出了总体匹配差异,一个两分布之间距离基于样本的估计;证明了总体匹配差异的一致性,并讨论了其在领域自适应、深度生成模型上的应用。
  • 提出了一个基于控制变量的图卷积网络高效随机训练算法,并给出了其收敛性证明和实验结果,较之前算法收敛速度快了7倍。

关键词:表示学习;隐变量模型;主题模型;采样算法;图卷积网络

作者介绍:陈健飞,他目前是清华大学计算机科学与技术系的博士研究生,他的博士生导师是朱军。他研究兴趣是大规模机器学习,尤其是可扩展的深层生成模型和深层主题模型。之前,他专注于扩展各种主题模型,包括LDA、CTM、DTM等。

1+
0+

相关内容

论文主题: A Deep Journey into Super-resolution: A survey

论文摘要: 基于深卷积网络的超分辨是一个快速发展的领域,有着广泛的实际应用。在这个说明中,我们广泛比较了30多个最先进的超分辨率卷积神经网络(CNNs)超过三个经典数据集和最近引入的三个具有挑战性的数据集对单图像超分辨率进行了基准测试。我们为基于深度学习的超分辨率网络,将现有方法分为九类,包括线性、残差、多分支、递归、渐进、基于注意力和对抗性设计。我们还提供了网络复杂度、内存占用、模型输入和输出、学习细节、网络损耗的类型和重要性架构差异(例如,深度、跳过连接、过滤器)。进行了广泛的评估,显示了一致性和快速性在过去几年中,随着模型复杂性的提高和大规模的可用性的增长数据集。我们还注意到,作为基准的开拓性方法已经被目前的竞争者。尽管近年来取得了进展,但我们确认了现有技术的一些缺点并提供了未来解决这些开放性问题的研究方向。

0+
0+

论文主题: Deep Semantic Segmentation of Natural and Medical Images: A Review

论文摘要: (医学)图像语义分割任务包括将图像的每个像素(或几个像素)分类为一个实例,其中每个实例(或类别)对应于一个类。此任务是场景理解概念的一部分,或更好地解释全局 图像的上下文。在医学图像分析领域,图像分割可用于图像引导干预、放射治疗或改进的放射诊断。在这篇综述中,我们将领先的基于深度学习的医学和非医学图像分割解决方案分为六大类:深度架构、基于数据合成、基于损失函数、序列模型、弱监督和多任务方法。此外,针对每一组,我们分析了这些组的每一个变体,并讨论了当前语义图像分割方法的局限性和未来的研究方向。

0+
0+

论文摘要:深度生成模型前景广阔,但是现有模型的表达能力、可解释性和判别性均有不足之处,亟待解决。具体而言,第一,现有深度生成模型中的网络结构和隐变量结构都非常简单,这限制了模型的表达能力;第二,现有深度生成模型以完全黑盒的方式拟合一个从噪音到高维数据的映射,其隐变量可解释性不足,生成图像的语义也难以控制;第三,无监督学习所提特征的判别能力远逊于前馈神经网络,而在深度生成模型中恰当地引入监督信号又是一个非平凡问题。本文面向不同的机器学习任务,设计匹配的模型和学习准则,开发高效的推理和学习算法,解决上述深度生成模型的关键性研究问题。本文的主要创新点如下:

  1. 面向无监督学习,受神经科学启发,提出一个带有记忆模块和注意力机制的 深度生成模型,提高了模型的表达能力和表现;提出对抗变分推理和学习算 法,无需对模型结构作特定假设,提高了一大类无向模型的推理和学习效果。
  2. 面向无监督学习和弱监督学习,基于贝叶斯网络和信息传播算法,提出一个 灵活普适的结构化深度生成模型框架,可以生成新的结构化数据并推理给定 数据中的结构化隐变量,增强了深度生成模型的表达能力和可解释性。
  3. 面向有监督学习和半监督学习,基于最大间隔学习准则,提出最大间隔深度 生成模型及其变体,极大增强了显式概率模型的判别能力,同时保留了其处 理数据中的噪音和缺失信息的能力。
  4. 面向半监督学习,受博弈理论启发,提出了三元生成对抗网络,首次提出半 监督生成对抗网络的最优均衡点并给出证明,显著提高了半监督分类准确率, 并首次在给定部分标注的情况下完成了语义可控的图像合成任务。

关键词: 深度生成模型;变分推理;对抗训练;图像合成;有限标注

作者介绍:李崇轩是清华大学计算机系2014级的博士研究生,他的博士生导师是张钹。他的研究兴趣主要是统计机器学习,特别是各种学习任务的深度生成模型,包括无监督、(半)监督和强化学习。

4+
0+

论文摘要:本工作针对机器学习算法的分布式梯度优化,期望通过设 计一系列算法层面的方法,首先优化计算过程和通信过程,进而从全局上优化整体迭 代过程,最终实现在分布式环境下高效高性能的目标。具体而言,本文的研究内容有 以下三点主要贡献。

  1. 面向高维海量数据的并行策略。目前机器学习算法的分布式梯 度优化使用的数据并行或模型并行策略无法同时解决高维模型和海量数据的双重挑战。作者首先提出一个严格的代价模型,以煇煂煄煔算法为例系统性地比较了已有的分布式系统架构,并选择参数服务器作为底层架构;然后在深入分析算法 特点的基础上,提出了基于参数服务器的混合并行策略,并以煇煂煄煔算法为例设 计和实现了提出的方法。
  2. 面向稀疏梯度的数据压缩。目前机器学习算法的分布式梯度优 化常常使用低精度数据压缩算法来压缩梯度数据,但是并不适合普遍存在的 稀疏梯度数据。作者提出了一种数据压缩算法来压缩以键值对形式存储的稀疏梯度。
  3. 面向异构环境的同步协议。目前机器学习算法的分布式梯度优 化的相关研究应用了多种同步协议,但是真实世界的集群环境往往是异构的,现有的 同步协议不适合这种异构环境,从而造成分布式梯度优化算法性能的显著下降。 作者首先分析现有同步协议造成算法性能下降的原因,在此基础之上针对异构 环境的特点提出了异构感知的同步协议,对模型参数更新的延迟程度建立理论 模型,并提出全局学习速度的机制。

关键词:机器学习,分布式梯度优化,梯度提升树,随机梯度下降,数据草图

作者介绍: 江佳伟,男, 信息科学技术学院 计算机软件与理论专业,他的博士生导师是崔斌教授, 博士学位论文题目为《机器学习算法的分布式梯度优化研究》。博士期间学术成果:CCF A类会议SIGMOD发表第一作者论文3篇,CCF A类SCI期刊TOIS发表第一作者论文1篇,CCF A类会议ICDE发表通讯作者论文1篇,CCF B类会议DASFAA发表第一作者论文1篇,CCF C类会议APWeb-WAIM发表第一作者论文1篇,SCI期刊NSR发表第三作者论文1篇。

机器学习算法的分布式梯度优化研究.pdf
0+
0+

论文摘要:传统监督学习通常假设训练数据类别标记恒定、特征信息充分、样本充 足。但很多现实的机器学习任务不满足这些假设条件,导致学习效果不尽人 意。为此,本文考虑通过引入增广信息 (Augmented Information) 进行学习。增 广信息包括传统静态学习中未考虑的额外信息以及动态学习过程中出现的新信 息。本文主要工作如下:

  1. 提出了一种训练集标记增广学习方法 GLOCAL。该方法利用标记关系对多 标记训练数据中部分缺失的标记进行恢复补全,但无需额外的先验知识来 指定标记关系矩阵,而是在优化过程中同时习得全局和局部标记关系。实 验验证了本文方法的有效性。
  2. 提出了分别用于静态、动态测试集标记增广学习的方法 DMNL 和 MuENL。 DMNL 通过最小化多示例包级损失和聚类正则化项,预测静态测试集中的多 个新标记;MuENL 通过特征和预测值训练新标记检测器并建立鲁棒模型, 以检测动态新增的标记并对其建模。实验验证了本文方法的有效性。
  3. 提出了一种多示例特征增广学习方法 AMIV-lss。 针对数据特征信息不足 的学习问题,将额外获取的带噪信息形式化为增广多示例视图 (AMIV) 作为 样本的特征增广。AMIV-lss 通过在两个异构视图之间建立公共隐藏语义 子空间,减少噪声影响,提升学习性能。实验验证了本文方法的有效性。
  4. 提出了一种多视图样本增广学习方法 OPMV。 OPMV 通过对每个样本优化 视图一致性约束下的组合目标函数,即可随着新增多视图数据高效更新模 型,并能够利用视图之间结构提升学习性能,而无需存储整个数据集,避 免从头进行训练。理论和实验验证了本文方法的有效性和高效性。
  5. 提出了同时进行标记/特征/样本增广学习的方法 EM3NL。EM3NL 基于多视 图多示例多标记深度卷积神经网络,利用额外文本描述作为图片的补充 (特 ii 征增广),能够检测新标记 (标记增广),并可根据动态增加的样本即时更新 模型 (样本增广)。实验验证了本文方法的有效性。

关键词: 机器学习;增广学习;增广信息;多标记学习;新标记学习;多视图 学习;单趟学习

作者介绍:朱越,他是南京大学计算机科学与技术学院五年级博士生,也是LAMDA集团的成员。在此之前,他于2011年获得了计算机科学与技术的理学学士学位,并于2013年在周志华教授的指导下获得了理学硕士学位。2015年3月至2015年9月,他拜访了香港科技大学James T. Kwok的小组。

4+
0+

论文题目:大规模结构化知识的 表示学习、自动获取与计算应用

论文作者:林衍凯,腾讯微信模式识别中心高级研究员。博士毕业于来自清华大学自然语言处理组, 由孙茂松教授和刘知远副教授共同指导,主要研究方向为知识图谱表示、构建和应用。目前已在人工智能、自然语言处理等领域的著名国际会议IJCAI,AAAI,EMNLP,ACL发表相关论文多篇,Google Scholar引用数超过1400。曾获2017年百度奖学金、2018年清华大学学术新秀。

指导老师:孙茂松,教授,博士生导师,曾任清华大学计算机科学与技术系系主任,现任教育部在线教育研究中心副主任、清华大学计算机系党委书记、清华大学大规模在线开放教育研究中心主任。

论文摘要:知识图谱是人工智能研究和智能信息服务基础核心技术,能够赋予智能体精 准查询、深度理解与逻辑推理等能力。目前,基于深度学习的自然语言处理技术只 能从数据中机械地学习完成特定任务的语义模式,不具备鲁棒性和可解释性,做 不到对语言的深层理解与推理。我们认为要想实现真正的自然语言理解,需要在 现有深度学习技术的基础上融合知识图谱信息。实现自然语言处理与知识图谱的 融合并非轻而易举,需要解决几个关键问题: (1)知识表示。在深度学习模型中充分利用大规模知识图谱,需要首先解决知 识图谱表示的问题。在这方面,我的工作包括:a. 考虑知识图谱复杂关系的知识 表示:我们提出了基于映射矩阵进行空间投影的知识图谱表示模型,用于处理知 识图谱中的复杂关系。b. 考虑知识图谱复杂路径的知识表示:我们认为实体之间 多步的关系路径同样包含着丰富的关系推理信息,并提出了一种基于路径表示的 知识图谱表示模型。c. 考虑知识图谱复杂属性的知识表示:我们提出了一种同时 学习知识图谱中实体、关系和特性表示的知识图谱表示模型,以提高知识图谱表 示的质量。 (2)知识获取。如何从互联网大规模的结构化、半结构和无结构数据中自动获 取知识,辅以少量人工校验,是大规模知识图谱构建的必由之路。在这方面,我的 工作包括:a. 基于选择注意力机制的关系抽取:针对远程监督数据中存在大量的 噪音的问题,我们提出了一个基于句子级别选择注意力机制的神经网络关系抽取 模型,用于过滤错误标注的句子。b. 基于多语言注意力机制的关系抽取:现有的 关系抽取系统通常专注于如何更好地利用单语言数据,忽略了多语言数据对于关 系抽取任务的帮助。针对这个问题,我们提出了一个基于多语言选择注意力机制 的关系抽取模型。 (3)知识应用。面向不同自然语言处理任务,我们需要探索将知识合理地融合 到该任务下的深度学习模型中,实现知识指导的自然语言理解。在这方面,我的 工作包括:a. 基于知识的实体分类:我们提出了基于知识注意力机制的实体分类 模型,用于考虑命名实体和上下文之间的联系以及知识图谱中丰富的有关信息。b. 基于知识的开放域问答:我们借鉴人类回答问题的模式提出了一个基于 ‘‘粗读-精 读-总结’’ 模式的开放域问答系统。 我们的工作有效地解决了面向知识图谱的知识表示、知识获取、知识应用中 的关键问题,为迈向真正的自然语言理解打下了坚实的基础。

博士论文_林衍凯_大规模结构化知识的表示学习、自动获取与计算应用.pdf
1+
0+

本课程将涵盖深度学习中不需要标注数据的两个领域:深度生成模型和自监督学习。生成模型的最新进展使得对自然图像、音频波形和文本语料库等高维原始数据进行真实建模成为可能。自监督学习的进步已经开始缩小监督表示学习和非监督表示学习之间的差距,本课程将涵盖这些主题的理论基础以及它们的新应用。

课程目录

  • 第1a讲: 课程安排;
  • 第1b讲: 课程动机;
  • 第1c讲: 基于似然的模型 Part I: 自回归模型
  • 第2a讲: 基于似然的模型 Part I: 自回归模型 (ctd)
  • 第2b讲: 无损压缩(Lossless Compression)
  • 第2c讲: 基于似然的模型 Part II: 流模型
  • 第3a讲:基于似然的模型 Part II:流模型(ctd)
  • 第3b讲:隐变量模型
  • 第4a讲:隐变量模型(ctd)(与第3周ppt相同)
  • 第5讲:隐式模型/生成对抗网络
  • 第六讲:非生成性表征学
  • 第7a讲:非生成表征学习(ctd)
  • 第7b讲:半监督学习
  • 第8讲:表征学习+其他问题
  • 第9a讲:无监督分布对齐
  • 第9b讲:客座讲座:Ilya Sutskever
  • 第10a讲:无监督分配对齐(ctd)
  • 第10b讲:客座讲座:Durk Kingma
  • 第11讲:语言模型(Alec Radford)
  • 第12a讲:无监督的表征学习
  • 第12b讲:客座讲座Alyosha Efros
  • 第13a讲:待定(TBD)
  • 第13b讲:客座讲座Aaron van den Oord
Lecture 5c+6a - Implicit Models (GANs).pdf
6b-11_merged .pdf
1a-4b_merged.pdf
4+
0+

论文题目:Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning

作者:Tuomas Haarnoja

导师:Pieter Abbeel and Sergey Levine

网址:
https://www2.eecs.berkeley.edu/Pubs/TechRpts/2018/EECS-2018-176.html

论文摘要:

在本文中,我们研究了最大熵框架如何提供有效的深度强化学习(deep reinforcement learning, deep RL)算法,以连贯性地解决任务并有效地进行样本抽取。这个框架有几个有趣的特性。首先,最优策略是随机的,改进了搜索,防止了收敛到局部最优,特别是当目标是多模态的时候。其次,熵项提供了正则化,与确定性方法相比,具有更强的一致性和鲁棒性。第三,最大熵策略是可组合的,即可以组合两个或两个以上的策略,并且所得到的策略对于组成任务奖励的总和是近似最优的。第四,最大熵RL作为概率推理的观点为构建能够解决复杂和稀疏奖励任务的分层策略提供了基础。在第一部分中,我们将在此基础上设计新的算法框架,从soft Q学习的学习表现力好的能量策略、对于 sodt actor-critic提供简单和方便的方法,到温度自动调整策略, 几乎不需要hyperparameter调优,这是最重要的一个实际应用的调优hyperparameters可以非常昂贵。在第二部分中,我们将讨论由最大熵策略固有的随机特性所支持的扩展,包括组合性和层次学习。我们将演示所提出的算法在模拟和现实机器人操作和移动任务中的有效性。

3+
0+

文本分类,是NLP的基础任务,旨在对给定文本预测其类别。然而,基础任务不代表简单任务:文本来源复杂多样,文本粒度有大有小,文本标签之间也有各种关系。面对各种问题,文本分类,仍在飞速发展中。来自美国弗吉尼亚大学的Kamran Kowsari博士等人,用了68页A4纸的篇幅,从0开始,细致的总结了文本分类近些年的发展,循序渐进,新手友好!

近年来,复杂文档和文本的数量呈指数级增长,需要对机器学习方法有更深刻的理解,才能在许多应用中准确地对文本进行分类。许多机器学习方法在自然语言处理方面取得了卓越的成绩。这些学习算法的成功依赖于它们理解复杂模型和数据中的非线性关系的能力。然而,为文本分类找到合适的结构、体系和技术对研究人员来说是一个挑战。本文简要介绍了文本分类算法。本文概述了不同的文本特征提取、降维方法、现有的分类算法和技术以及评估手段。最后,讨论了每种技术的局限性及其在实际问题中的应用。

Text Classification Algorithms A Survey.pdf
12+
0+
Top