论文摘要:本文基于方差缩减、拒绝采样、访存优化等技术,研究了隐变量模型和深度表示学习两类模型的高效算法,并研究了这些算法在文本分析、生成式模型、图节 点分类等多个任务中的应用。具体地,本文创新点有:

  • 提出隐变量模型的方差缩减 EM 算法,并给出了其局部收敛速度和全局收敛性的理论结果。
  • 提出了缓存高效的 O(1) 时间复杂度主题模型采样算法,该算法较之前算法提速了 5-15 倍,且能扩展到数亿文档、数百万主题、上万 CPU 核的场景。
  • 提出了结构化主题模型的高效算法,具体包括层次化主题模型的部分坍缩吉 布斯采样算法,将该模型扩展到了比之前大5个数量级的数据集上;以及有监督主题模型的坐标下降、拒绝采样算法,较之前算法加速4倍。
  • 提出了总体匹配差异,一个两分布之间距离基于样本的估计;证明了总体匹配差异的一致性,并讨论了其在领域自适应、深度生成模型上的应用。
  • 提出了一个基于控制变量的图卷积网络高效随机训练算法,并给出了其收敛性证明和实验结果,较之前算法收敛速度快了7倍。

关键词:表示学习;隐变量模型;主题模型;采样算法;图卷积网络

作者介绍:陈健飞,他目前是清华大学计算机科学与技术系的博士研究生,他的博士生导师是朱军。他研究兴趣是大规模机器学习,尤其是可扩展的深层生成模型和深层主题模型。之前,他专注于扩展各种主题模型,包括LDA、CTM、DTM等。

成为VIP会员查看完整内容
0
20

相关内容

陈健飞,他目前是清华大学计算机科学与技术系的博士研究生,他的博士生导师是朱军。他研究兴趣是大规模机器学习,尤其是可扩展的深层生成模型和深层主题模型。之前,他专注于扩展各种主题模型,包括LDA、CTM、DTM等。

台湾交通大学的Jen-Tzung Chien教授在WSDN 2020会议上通过教程《Deep Bayesian Data Mining》介绍了深度贝叶斯数据挖掘的相关知识,涵盖了贝叶斯学习、深度序列学习、深度贝叶斯挖掘和学习等内容。

Jen-Tzung Chien教授在WSDM 2020的教程《Deep Bayesian Data Mining》(《深度贝叶斯数据挖掘》)介绍了面向自然语言的深度贝叶斯挖掘和学习,包括了它的基础知识和进展,以及它无处不在的应用,这些应用包括语音识别、文档摘要、文本分类、文本分割、信息抽取、图像描述生成、句子生成、对话控制、情感分类、推荐系统、自动问答和机器翻译等。

从传统上,“深度学习”被认为是一个学习过程,过程中的推断和优化都使用基于实数的判别模型。然而,从大量语料中提取出的词汇、句子、实体、行为和文档的“语义结构”在数学逻辑或计算机程序中可能不能很好地被这种方式表达或正确地优化。自然语言的离散或连续潜在变量模型中的“分布函数”可能不能被正确分解或估计。

该教程介绍了统计模型和神经网络的基础,并聚焦于一系列先进的贝叶斯模型和深度模型,包括层次狄利克雷过程、中国餐馆过程、递归神经网络、长短期记忆网络、序列到序列模型、变分自编码器、生成式对抗网络、策略神经网络等。教程还介绍了增强的先验/后验表示。教程展示了这些模型是如何连接的,以及它们为什么适用于自然语言中面向符号和复杂模式的各种应用程序。

变分推断和采样被提出解决解决复杂模型的优化问题。词和句子的嵌入、聚类和联合聚类被语言和语义约束合并。针对深度贝叶斯挖掘、搜索、学习和理解中的不同问题,一系列的案例研究、任务和应用被提出。最后,教程指出一些未来研究的方向和展望。教程旨在向初学者介绍深度贝叶斯学习中的主要主题,激发和解释它对数据挖掘和自然语言理解正在浮现的重要性,并提出一种结合不同的机器学习工作的新的综合方法。

教程的内容大致如下:

  • 简介
    • 动机和背景
    • 概率模型
    • 神经网络
  • 贝叶斯学习
    • 推断和优化
    • 变分贝叶斯推断
    • 蒙特卡罗马尔科夫链推断
  • 深度序列学习
    • 深度非展开主题模型
    • 门递归神经网络
    • 贝叶斯递归神经网络
    • 记忆增强神经网络
    • 序列到序列学习
    • 卷积神经网络
    • 扩增神经网络
    • 基于Transformer的注意力网络
  • 深度贝叶斯挖掘和学习
    • 变分自编码器
    • 变分递归自编码器
    • 层次变分自编码器
    • 随机递归神经网络
    • 正则递归神经网络
    • 跳跃递归神经网络
    • 马尔科夫递归神经网络
    • 时间差分变分自编码器
    • 未来挑战和发展
  • 总结和未来趋势

完整教程下载

请关注专知公众号(点击上方蓝色专知关注) 后台回复“DBDM20” 就可以获取完整教程PDF的下载链接~

教程部分内容如下所示:

参考链接:

http://chien.cm.nctu.edu.tw/home/wsdm-tutorial/

-END- 专 · 知

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取更多AI知识资料!

欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程视频资料和与专家交流咨询!

请加专知小助手微信(扫一扫如下二维码添加),获取专知VIP会员码,加入专知人工智能主题群,咨询技术商务合作~

点击“阅读原文”,了解注册使用专知

成为VIP会员查看完整内容
0
55

题目: Graph Summarization Methods and Applications: A Survey

摘要:

虽然计算资源的进步使处理大量数据成为可能,但人类识别这些数据模式的能力并没有相应提高。因此,压缩和简化数据的高效计算方法对于提取可操作的见解变得至关重要。特别是,虽然对数据摘要技术进行了广泛的研究,但直到最近才开始流行对相互关联的数据或图进行汇总。这项调查是一个结构化的,全面的概述了最先进的方法,以总结图形数据。我们首先讨论了图形摘要背后的动机和挑战。然后,我们根据作为输入的图形类型对摘要方法进行分类,并根据核心方法进一步组织每个类别。最后,我们讨论了总结在真实世界图上的应用,并通过描述该领域的一些开放问题进行了总结。

作者简介:

Yike Liu是密西根大学物理系五年级的博士生,也是计算机科学与工程系的一名硕士研究生。我是叶杰平教授的顾问。主要研究方向是深度学习和强化学习,尤其是在交通数据上的应用。在此之前,从事过基于图形的机器学习和数据挖掘,特别是图形总结和图形聚类,在这些工作中,开发了图形挖掘算法,帮助更好地理解底层的图形组织并理解它。

Tara Safavi是密西根大学博士研究生,研究重点是知识表示及其在以人为中心的任务中的使用、评估和解释,还对更广泛的AI+社会问题感兴趣,比如隐私、偏见和环境可持续性。研究目前得到了美国国家科学基金会(NSF)研究生奖学金和谷歌女性科技创造者奖学金的支持。

成为VIP会员查看完整内容
0
15

题目: Graph Embedding Techniques, Applications, and Performance: A Survey

摘要: 图形,如社交网络、单词共现网络和通信网络,自然地出现在各种实际应用中。通过对它们的分析,可以深入了解社会结构、语言和不同的交流模式。已经提出了许多方法来进行分析。近年来,在向量空间中使用图节点表示的方法受到了研究界的广泛关注。在这项调查中,我们对文献中提出的各种图嵌入技术进行了全面和结构化的分析。我们首先介绍了嵌入任务及其面临的挑战,如可伸缩性、维度的选择、要保留的特性以及可能的解决方案。然后,我们提出了基于因子分解法、随机游动和深度学习的三类方法,并举例说明了每类算法的代表性,分析了它们在不同任务中的性能。我们在一些常见的数据集上评估这些最新的方法,并将它们的性能进行比较。我们的分析最后提出了一些潜在的应用和未来的方向。

作者简介: Palash Goyal,南加州大学计算机系博士。

Emilio Ferrara,南加州大学计算机科学系助理研究教授和应用数据科学副主任,南加州大学信息科学研究所机器智能和数据科学(MINDS)小组的研究组长和首席研究员。

成为VIP会员查看完整内容
0
28

讲座题目

深层贝叶斯挖掘、学习与理解:Deep Bayesian Mining, Learning and Understanding

讲座简介

本教程介绍了自然语言的深度贝叶斯学习的进展,其应用广泛,从语音识别到文档摘要、文本分类、文本分割、信息提取、图像字幕生成、句子生成、对话控制、情感分类、推荐系统,问答和机器翻译,举几个例子。传统上,“深度学习”被认为是一种基于实值确定性模型进行推理或优化的学习过程。从大量词汇中提取的单词、句子、实体、动作和文档中的“语义结构”在数学逻辑或计算机程序中可能没有得到很好的表达或正确的优化。自然语言离散或连续潜变量模型中的“分布函数”可能无法正确分解或估计。本教程介绍了统计模型和神经网络的基本原理,重点介绍了一系列先进的贝叶斯模型和深层模型,包括分层Dirichlet过程、中餐馆过程、分层Pitman-Yor过程、印度自助餐过程、递归神经网络、长时短期记忆,序列到序列模型,变分自动编码器,生成对抗网络,注意机制,记忆增强神经网络,跳跃神经网络,随机神经网络,预测状态神经网络,策略神经网络。我们将介绍这些模型是如何连接的,以及它们为什么在自然语言中的符号和复杂模式的各种应用中起作用。为了解决复杂模型的优化问题,提出了变分推理和抽样方法。词和句子的嵌入、聚类和共聚类与语言和语义约束相结合。本文提出了一系列的案例研究,以解决深度贝叶斯挖掘、学习和理解中的不同问题。最后,我们将指出未来研究的一些方向和展望。

讲座嘉宾

Jen-Tzung Chien,詹增建于一九九七年获中华民国新竹国立清华大学电机工程博士学位。现任台湾新竹国立交通大学电机与电脑工程系及电脑科学系主任教授。2010年,他在纽约约克敦高地IBM T.J.沃森研究中心担任客座教授。他的研究兴趣包括机器学习、深度学习、自然语言处理和计算机视觉。

成为VIP会员查看完整内容
0
34

数学基础

  • 1.线性代数基础
    • 一、基本知识
    • 二、向量操作
    • 三、矩阵运算
    • 四、特殊函数
  • 2.概率论基础
    • 一、概率与分布
    • 二、期望和方差
    • 三、大数定律及中心极限定理
    • 五、常见概率分布
    • 六、先验分布与后验分布
    • 七、信息论
    • 八、其它
  • 3.数值计算基础
    • 一、数值稳定性
    • 二、梯度下降法
    • 三、二阶导数与海森矩阵
    • 四、牛顿法
    • 五、拟牛顿法
    • 六、 约束优化
  • 4.蒙特卡洛方法与 MCMC 采样
    • 一、蒙特卡洛方法
    • 二、马尔可夫链
    • 三、MCMC 采样

统计学习

  • 0.机器学习简介
    • 一、基本概念
    • 二、监督学习
    • 三、机器学习三要素
  • 1.线性代数基础
    • 一、线性回归
    • 二、广义线性模型
    • 三、对数几率回归
    • 四、线性判别分析
    • 五、感知机
  • 2.支持向量机
    • 一、 线性可分支持向量机
    • 二、线性支持向量机
    • 三、非线性支持向量机
    • 四、支持向量回归
    • 五、SVDD
    • 六、序列最小最优化方法
    • 七、其它讨论
  • 3.朴素贝叶斯
    • 一、贝叶斯定理
    • 二、朴素贝叶斯法
    • 三、半朴素贝叶斯分类器
    • 四、其它讨论
  • 4.决策树
    • 一、 原理
    • 二、 特征选择
    • 三、生成算法
    • 四、剪枝算法
    • 五、CART 树
    • 六、连续值、缺失值处理
    • 七、多变量决策树
  • 5.knn
    • 一、k 近邻算法
    • 二、 kd树
  • 6.集成学习
    • 一、集成学习误差
    • 二、 Boosting
    • 三、Bagging
    • 四、集成策略
    • 五、多样性分析
  • 7.梯度提升树
    • 一、提升树
    • 二、xgboost
    • 三、LightGBM
  • 8.特征工程
    • 一、缺失值处理
    • 二、特征编码
    • 三、数据标准化、正则化
    • 四、特征选择
    • 五、稀疏表示和字典学习
    • 六、多类分类问题
    • 七、类别不平衡问题
  • 9.模型评估
    • 一、泛化能力
    • 二、过拟合、欠拟合
    • 三、偏差方差分解
    • 四、参数估计准则
    • 五、泛化能力评估
    • 六、训练集、验证集、测试集
    • 七、性能度量
    • 八、超参数调节
    • 九、传统机器学习的挑战
  • 10.降维
    • 一、维度灾难
    • 二、主成分分析 PCA
    • 三、核化线性降维 KPCA
    • 四、流形学习
    • 五、度量学习
    • 六、概率PCA
    • 七、独立成分分析
    • 八、t-SNE
    • 九、LargeVis
  • 11.聚类
    • 一、性能度量
    • 二、原型聚类
    • 三、密度聚类
    • 四、层次聚类
    • 五、谱聚类
    • 12.半监督学习
  • 半监督学习
    • 一、生成式半监督学习方法
    • 二、半监督 SVM
    • 三、图半监督学习
    • 四、基于分歧的方法
    • 五、半监督聚类
    • 六、 总结
  • 13.EM算法
    • 一、示例
    • 二、EM算法原理
    • 三、EM算法与高斯混合模型
    • 四、EM 算法与 kmeans 模型
    • 五、EM 算法的推广
  • 14.最大熵算法
    • 一、最大熵模型MEM
    • 二、分类任务最大熵模型
    • 三、最大熵的学习
  • 15.隐马尔可夫模型
    • 一、隐马尔可夫模型HMM
    • 二、 HMM 基本问题
    • 三、 最大熵马尔科夫模型MEMM
  • 16.概率图与条件随机场
    • 一、概率图模型
    • 二、贝叶斯网络
    • 三、马尔可夫随机场
    • 四、条件随机场 CRF
  • 17.边际概率推断
    • 一、精确推断
    • 二、近似推断
  • 18.主题模型
    • 一、Unigram Model
    • 二、pLSA Model
    • 三、LDA Model
    • 四、LDA优化
    • 五、sentence-LDA
    • 六、模型讨论

深度学习

  • 0.深度学习简介
    • 一、 介绍
    • 二、历史
  • 1.深度前馈神经网络
    • 一、基础
    • 二、损失函数
    • 三、输出单元
    • 四、隐单元
    • 五、结构设计
    • 六、历史小记
  • 2.反向传播算法
    • 一、链式法则
    • 二、反向传播
    • 三、算法实现
    • 四、自动微分
  • 3.正则化
    • 一、参数范数正则化
    • 二、显式约束正则化
    • 三、数据集增强
    • 四、噪声鲁棒性
    • 五、早停
    • 六、参数相对约束
    • 七、dropout
    • 八、对抗训练
    • 九、正切传播算法
    • 十、其它相关
  • 4.最优化基础
    • 一、代价函数
    • 二、神经网络最优化挑战
    • 三、 mini-batch
    • 四、基本优化算法
    • 五、自适应学习率算法
    • 六、二阶近似方法
    • 七、共轭梯度法
    • 八、优化策略和元算法
    • 九、参数初始化策略
    • 十、Normalization
    • 十一、Online Learning
  • 5.卷积神经网络
    • 一、卷积运算
    • 二、卷积层、池化层
    • 三、基本卷积的变体
    • 四、应用
    • 五、 历史和现状
  • 5.1.CNN之图片分类
    • 一、LeNet
    • 二、AlexNet
    • 三、VGG-Net
    • 四、Inception
    • 五、ResNet
    • 六、ResNet 变种
    • 七、SENet
    • 八、 DenseNet
    • 九、小型网络
  • 6.循环神经网络
    • 一、RNN计算图
    • 二、训练算法
    • 三、长期依赖
    • 四、常见 RNN 变种
  • 7.Transformer
    • 一、Transformer
    • 二、Universal Transformer
    • 三、Transformer XL
    • 四、GPT
    • 五、BERT
    • 六、ERNIE
    • 七、XLNet
    • 八、MT-DNN
    • 九、BERT 扩展
  • 8.词向量
    • 一、向量空间模型 VSM
    • 二、LSA
    • 三、Word2Vec
    • 四、GloVe
    • 五、FastText
    • 六、ELMo
    • 七、变种
  • 9.传统 CTR 预估模型
    • 一、LR 模型
    • 二、POLY2 模型
    • 三、FM模型
    • 四、FFM模型
    • 五、GBDT-LR 模型
    • 六、FTRL模型
    • 七、LS-PLM 模型
  • 10.工程实践指导原则
    • 一、性能度量
    • 二、默认的基准模型
    • 三、决定是否收集更多数据
    • 四、选择超参数
    • 五、调试策略
    • 六、示例:数字识别系统
    • 七、数据预处理
    • 八、变量初始化
    • 九、结构设计

工具

CRF

  • CRF++
    • 一、安装
    • 二、使用
    • 三、Python接口
    • 四、常见错误 lightgbm
  • lightgbm使用指南
    • 一、安装
    • 二、调参
    • 三、进阶
    • 四、API
    • 五、Docker

xgboost

  • xgboost使用指南
    • 一、安装
    • 二、调参
    • 三、外存计算
    • 四、 GPU计算
    • 五、单调约束
    • 六、 DART booster
    • 七、Python API
    • scikit-learn
  • 1.预处理
    • 一、特征处理
    • 二、特征选择
    • 三、字典学习
    • 四、PipeLine
  • 2.降维
    • 一、PCA
    • 二、MDS
    • 三、Isomap
    • 四、LocallyLinearEmbedding
    • 五、FA
    • 六、FastICA
    • 七、t-SNE
  • 3.监督学习模型
    • 一、线性模型
    • 二、支持向量机
    • 三、贝叶斯模型
    • 四、决策树
    • 五、KNN
    • 六 、AdaBoost
    • 七、梯度提升树
    • 八、Random Forest
  • 4.模型评估
    • 一、数据集切分
    • 二、性能度量
    • 三、验证曲线 && 学习曲线
    • 四、超参数优化
  • 5.聚类模型
    • 一、KMeans
    • 二、DBSCAN
    • 三、MeanShift
    • 四、AgglomerativeClustering
    • 五、BIRCH
    • 六、GaussianMixture
    • 七、SpectralClustering
  • 6.半监督学习模型
    • 一、标签传播算法
  • 7.隐马尔可夫模型
    • 一、Hmmlearn
    • 二、seqlearn

spark

  • 1.基础概念
    • 一、核心概念
    • 二、安装和使用
    • 三、 pyspark shell
    • 四、独立应用
  • 2.rdd使用
    • 一、概述
    • 二、创建 RDD
    • 三、转换操作
    • 四、行动操作
    • 五、其他方法和属性
    • 六、持久化
    • 七、分区
    • 八、混洗
  • 3.dataframe使用
    • 一、概述
    • 二、SparkSession
    • 三、DataFrame 创建
    • 四、 DataFrame 保存
    • 五、DataFrame
    • 六、Row
    • 七、Column
    • 八、GroupedData
    • 九、functions
  • 4.累加器和广播变量
    • 一、累加器
    • 二、广播变量

numpy

  • numpy 使用指南
    • 一、 ndarray
    • 二、 ufunc 函数
    • 三、 函数库
    • 四、数组的存储和加载

scipy

  • scipy 使用指南
    • 一、 常数和特殊函数
    • 二、 拟合与优化
    • 三、线性代数
    • 四、 统计
    • 五、数值积分
    • 六、 稀疏矩阵

matplotlib

  • matplotlib 使用指南
    • 一、matplotlib配置
    • 二、 matplotlib Artist
    • 三、基本概念
    • 四、布局
    • 五、 Path
    • 六、 path effect
    • 七、坐标变换
    • 八、 3D 绘图
    • 九、技巧

pandas

  • pandas 使用指南
    • 一、基本数据结构
    • 二、 内部数据结构
    • 三、 下标存取
    • 四、 运算
    • 五、变换
    • 六、数据清洗
    • 七、 字符串操作
    • 八、 聚合与分组
    • 九、时间序列
    • 十、 DataFrame 绘图
    • 十一、 移动窗口函数
    • 十二、 数据加载和保存
成为VIP会员查看完整内容
0
98
Top