在过去的20年里,基因组学、神经科学、经济学和互联网服务等许多领域产生了越来越多的大数据集,这些数据集有高维、大样本,或者两者兼之。这为我们从数据中检索和推断有价值的信息提供了前所未有的机会。同时,也对统计方法和计算算法提出了新的挑战。一方面,我们希望建立一个合理的模型来捕获所需的结构,并提高统计估计和推断的质量。另一方面,面对越来越大的数据集,计算可能成为一个巨大的障碍,以得出有意义的结论。这篇论文站在两个主题的交叉点,提出了统计方法来捕获所需的数据结构,并寻求可扩展的方法来优化计算非常大的数据集。我们提出了一种可扩展的灵活框架,用于利用lasso/elastic-net解决大规模稀疏回归问题; 提出了一种可伸缩的框架,用于在存在多个相关响应和其他细微差别(如缺失值)的情况下解决稀疏缩减秩回归问题。分别在snpnet和multiSnpnet R包中以PLINK 2.0格式为基因组数据开发了优化的实现。这两种方法在超大和超高维的英国生物样本库研究中得到了验证,与传统的预测建模方法相比有了显著的改进。此外,我们考虑了一类不同的高维问题,异质因果效应的估计。与监督学习的设置不同,这类问题的主要挑战在于,在历史数据中,我们从未观察到硬币的另一面,因此我们无法获得处理之间真正差异的基本真相。我们提出适应非参数统计学习方法,特别是梯度增强和多元自适应回归样条,以估计处理效果的预测器可用。实现被打包在一个R包causalLearning中。

成为VIP会员查看完整内容
0
40

相关内容

题目: Convolutional Kernel Networks for Graph-Structured Data

摘要:

本文介绍了一系列多层图核,并在图卷积神经网络和核方法之间建立了新的联系。该方法通过将图表示为一系列内核特征图来概括卷积核网络以绘制结构化数据图,其中每个节点都承载有关局部图子结构的信息。一方面,内核的观点提供了一种无监督,表达性强且易于调整的数据表示形式,这在有限样本可用时非常有用。另一方面,我们的模型也可以在大规模数据上进行端到端训练,从而产生新类型的图卷积神经网络。并且证明了该方法在几种图形分类基准上均具有竞争优势,同时提供了简单的模型解释。

成为VIP会员查看完整内容
0
11

非凸优化是机器学习中的基础问题,迭代优化方法缺乏理论支撑。普林斯顿大学助理教授Yuxin Chen一直从事非凸优化方面的研究,这份报告讲述了最近关于非凸统计估计的故事,它们强调了统计模型在实现有效的非凸优化中的重要作用。

Yuxin Chen 目前是普林斯顿大学电气工程系的助理教授。在加入普林斯顿大学之前,他是斯坦福大学统计系的博士后学者,并在斯坦福大学完成了电子工程博士学位。他的研究兴趣包括高维统计、凸与非凸优化、统计学习和信息论。他获得了2019年AFOSR青年研究员奖。

http://www.princeton.edu/~yc5/

非凸优化与统计学

近年来,利用非凸优化方法来解决统计估计和学习问题的研究工作层出不穷。由于非凸优化算法易受虚假局部极小值的影响,传统工作通常对其持悲观看法,而简单的迭代方法,如梯度下降法,在实践中已经取得了显著的成功。然而,直到最近,这些理论基础在很大程度上一直缺乏。这个报告展示了两个最近关于非凸统计估计的故事,它们强调了统计模型在实现有效的非凸优化中的重要作用。第一个故事是关于一个相位检索问题的随机初始化非凸方法:即使没有仔细的初始化,像梯度下降这样的简单算法也可以在对数迭代次数内找到全局解。第二个故事是关于非凸低秩矩阵补全的不确定性量化。我们在非凸估计的基础上开发了一个去偏估计器,使未知矩阵缺失项的置信区间能得到最优构造。所有这些都是通过一个“一留一出”的统计分析框架实现的,该框架在处理和解耦复杂的统计依赖方面非常强大。

https://events.seas.upenn.edu/event/priml-seminar-nonconvex-optimization-meets-statistics-a-few-recent-stories/

成为VIP会员查看完整内容
0
34

主题: Deep Learning for Community Detection: Progress, Challenges and Opportunities

摘要: 由于社区代表着相似的观点,相似的功能,相似的目的等,因此社区检测对于科学查询和数据分析而言都是重要且极为有用的工具。 但是,随着深度学习技术显示出以令人印象深刻的性能处理高维图形数据的能力日益增强,诸如频谱聚类和统计推断之类的经典社区检测方法正在逐渐被淘汰。 因此,及时对通过深度学习进行社区检测的进展进行调查。 该领域分为该领域的三个广泛的研究流-深度神经网络,深度图嵌入和图神经网络,总结了每个流中各种框架,模型和算法的贡献以及当前尚未解决的挑战和 未来的研究机会尚待探索。

成为VIP会员查看完整内容
0
4

主题: Large-scale and high-dimensional statistical learning methods and algorithms

摘要: 在过去的二十年中,基因组学,神经科学,经济学和互联网服务等许多领域已经产生了越来越大的,具有高维,大样本量或两者兼有的数据集。这为我们提供了前所未有的机会,可以从数据中检索和推断出有价值的信息。同时,这也给统计方法和计算算法提出了新的挑战。一方面,我们希望制定一个合理的模型来捕获所需的结构并提高统计估计和推断的质量。另一方面,面对越来越大的数据集,计算可能是一个很难得出有意义结论的障碍。本文站在两个主题的交集上,提出了统计方法来捕获数据中的所需结构,并寻求可扩展的方法来优化超大型数据集的计算。我们提出了使用套索/弹性网解决大规模稀疏回归问题的可扩展且灵活的框架,以及在存在多个相关响应和其他细微差别(例如缺失值)的情况下解决稀疏降阶回归的可扩展框架。针对R软件包snpnet和multiSnpnet中PLINK 2.0格式的基因组数据开发了优化的实现。这两种方法已在UK Biobank的超大型和超大规模研究中得到证明,并且与传统的预测建模方法相比有了显着改进。此外,我们考虑另一类高维问题,即异类因果效应估计。与监督学习不同,此类问题的主要挑战在于,在历史数据中,我们从未观察到硬币的另一面,因此我们无法获得治疗之间真正差异的地面真理。我们建议采用非参数统计学习方法,尤其是梯度增强和多元自适应回归样条,以根据可用的预测因子来估计治疗效果。

成为VIP会员查看完整内容
0
6

生成对抗网络(GANs)是近年来受到广泛关注的一类新型的深度生成模型。GANs通过图像、音频和数据隐式地学习复杂的高维分布。然而,在GANs的训练中存在着主要的挑战。由于网络结构设计不当,使用目标函数和选择优化算法,导致模式崩溃,不收敛和不稳定。最近,为了解决这些挑战,一些更好地设计和优化GANs的解决方案已经被研究,基于重新设计的网络结构、新的目标函数和替代优化算法的技术。据我们所知,目前还没有一项综述特别侧重于这些解决办法的广泛和系统的发展。在这项研究中,我们进行了一个全面的综述,在GANs的设计和优化解决方案提出,以处理GANs的挑战。我们首先确定每个设计和优化技术中的关键研究问题,然后根据关键研究问题提出新的分类结构解决方案。根据分类,我们将详细讨论每个解决方案中提出的不同GANs变体及其关系。最后,在已有研究成果的基础上,提出了这一快速发展领域的研究方向。

https://arxiv.org/abs/2005.00065

概述

深度生成模型(DGMs),如受限玻尔兹曼机(RBMs)、深度信念网络(DBNs)、深度玻尔兹曼机(DBMs)、去噪自编码器(DAE)和生成随机网络(GSN),最近因捕获音频、图像或视频等丰富的底层分布和合成新样本而引起了广泛关注。这些深度生成模型采用基于马尔科夫链蒙特卡罗(MCMC)的[1][2]算法进行建模。基于MCMC的方法计算训练过程中梯度消失的对数似然梯度。这是由马尔科夫链产生的样本生成慢的主要原因,因为它不能足够快地在模式间混合。另一个生成模型,变分自动编码器(VAE),使用带有统计推理的深度学习来表示潜在空间[3]中的一个数据点,并在难以处理的概率计算的近似过程中体验复杂性。此外,这些生成模型是通过最大化训练数据可能性来训练的,其中基于概率的方法在许多数据集(如图像、视频)中经历了维数的诅咒。此外,在高维空间中,从马尔可夫链进行的采样是模糊的,计算速度慢且不准确。

为了解决上述问题,Goodfellow等人提出了生成对抗网(GANs),这是生成模型的另一种训练方法。GANs是一种新颖的深度生成模型,它利用反向传播来进行训练,以规避与MCMC训练相关的问题。GANs训练是生成模型和判别模型之间的极小极大零和博弈。GANs最近在生成逼真图像方面得到了广泛的关注,因为它避免了与最大似然学习[5]相关的困难。图1显示了GANs能力从2014年到2018年的一个进展示例。

GANs是一种结构化的概率模型,它由两个对立的模型组成:生成模型(Generator (G))用于捕获数据分布; 判别模型(Discriminator (D))用于估计生成数据的概率,以确定生成的数据是来自真实的数据分布,还是来自G的分布。D和G使用基于梯度的优化技术(同时梯度下降)玩一个两人极小极大对策,直到纳什均衡。G可以从真实分布中生成采样后的图像,而D无法区分这两组图像。为了更新G和D,由D通过计算两个分布之间的差异而产生的损失来接收梯度信号。我们可以说,GANs设计和优化的三个主要组成部分如下:(i) 网络结构,(ii) 目标(损失)函数,(iii)优化算法。

对多模态数据建模的任务,一个特定的输入可以与几个不同的正确和可接受的答案相关联。图2显示了具有多个自然图像流形(红色)的插图,结果由使用均方误差(MSE)的基本机器学习模型实现,该模型在像素空间(即,导致图像模糊)和GANs所获得的结果,从而驱动重构向自然图像流形方向发展。由于GANs的这一优势,它在许多领域得到了广泛的关注和应用。

GANs在一些实际任务中表现良好,例如图像生成[8][9]、视频生成[11]、域自适应[12]和图像超分辨率[10]等。传统的GANs虽然在很多方面都取得了成功,但是由于D和G训练的不平衡,使得GANs在训练中非常不稳定。D利用迅速饱和的逻辑损失。另外,如果D可以很容易的区分出真假图像,那么D的梯度就会消失,当D不能提供梯度时,G就会停止更新。近年来,对于模式崩溃问题的处理有了许多改进,因为G产生的样本基于少数模式,而不是整个数据空间。另一方面,引入了几个目标(损失)函数来最小化与传统GANs公式的差异。最后,提出了几种稳定训练的方法。

近年来,GANs在自然图像的制作方面取得了突出的成绩。然而,在GANs的训练中存在着主要的挑战。由于网络结构设计不当,使用目标函数和选择优化算法,导致模式崩溃,不收敛和不稳定。最近,为了解决这些挑战,一些更好地设计和优化GANs的解决方案已经被研究,基于重新设计的网络结构、新的目标函数和替代优化算法的技术。为了研究以连续一致的方式处理GANs挑战的GANs设计和优化解决方案,本综述提出了不同GANs解决方案的新分类。我们定义了分类法和子类寻址来构造当前最有前途的GANs研究领域的工作。通过将提出的GANs设计和优化方案分类,我们对其进行了系统的分析和讨论。我们还概述了可供研究人员进一步研究的主要未决问题。

本文贡献:

  • GAN新分类法。在本研究中,我们确定了每个设计和优化技术中的关键研究问题,并提出了一种新的分类法,根据关键研究问题来构造解决方案。我们提出的分类将有助于研究人员增强对当前处理GANs挑战的发展和未来研究方向的理解。

  • GAN全面的调研。根据分类法,我们提供了对各种解决方案的全面审查,以解决GANs面临的主要挑战。对于每一种类型的解决方案,我们都提供了GANs变体及其关系的详细描述和系统分析。但是,由于广泛的GANs应用,不同的GANs变体以不同的方式被制定、训练和评估,并且这些GANs之间的直接比较是复杂的。为此,我们进行了必要的比较,总结了相应的方法。他们提出了解决GANs挑战的新方案。这个调查可以作为了解、使用和开发各种实际应用程序的不同GANs方法的指南。

成为VIP会员查看完整内容
0
71

【导读】2020 年 2 月 7 日-2 月 12 日,AAAI 2020 于美国纽约举办。近年来,将传统的处理效果估计方法(如匹配估计器)和先进的表示学习方法(如深度神经网络)相结合的一个新兴的研究方向在广阔的人工智能领域引起了越来越多的关注。来自Georgia、Buffalo、阿里巴巴与Virginia的学者做了因果推理表示学习报告,在本教程中,介绍用于治疗效果估计的传统和最先进的表示学习算法。关于因果推论,反事实和匹配估计的背景也将被包括。我们还将展示这些方法在不同应用领域的应用前景。

摘要

因果推理在医疗保健、市场营销、医疗保健、政治科学和在线广告等许多领域都有大量的实际应用。治疗效果估计作为因果推理中的一个基本问题,在统计学上已被广泛研究了几十年。然而,传统的处理效果估计方法不能很好地处理大规模、高维的异构数据。近年来,将传统的处理效果估计方法(如匹配估计器)和先进的表示学习方法(如深度神经网络)相结合的一个新兴的研究方向在广阔的人工智能领域引起了越来越多的关注。在本教程中,我们将介绍用于治疗效果估计的传统和最先进的表示学习算法。关于因果推论,反事实和匹配估计的背景也将被包括。我们还将展示这些方法在不同应用领域的应用前景。

成为VIP会员查看完整内容
0
83

强化学习(RL)研究的是当环境(即动力和回报)最初未知,但可以通过直接交互学习时的顺序决策问题。RL算法最近在许多问题上取得了令人印象深刻的成果,包括游戏和机器人。 然而,大多数最新的RL算法需要大量的数据来学习一个令人满意的策略,并且不能用于样本昂贵和/或无法进行长时间模拟的领域(例如,人机交互)。朝着更具样本效率的算法迈进的一个基本步骤是,设计适当平衡环境探索、收集有用信息的方法,以及利用所学策略收集尽可能多的回报的方法。

本教程的目的是让您认识到探索性开发困境对于提高现代RL算法的样本效率的重要性。本教程将向观众提供主要算法原理(特别是,面对不确定性和后验抽样时的乐观主义)、精确情况下的理论保证(即表格RL)及其在更复杂环境中的应用,包括参数化MDP、线性二次控制,以及它们与深度学习架构的集成。本教程应提供足够的理论和算法背景,以使AI和RL的研究人员在现有的RL算法中集成探索原理,并设计新颖的样本高效的RL方法,能够处理复杂的应用,例如人机交互(例如,会话代理),医学应用(例如,药物优化)和广告(例如,营销中的终身价值优化)。在整个教程中,我们将讨论开放的问题和未来可能的研究方向。

成为VIP会员查看完整内容
0
34

题目:* Spatio-Temporal Alignments: Optimal transport through space and time

摘要:

比较在空间和时间上定义的数据是出了名的困难,因为它涉及到对空间和时间可变性进行量化,同时还要考虑到数据的时间结构。动态时间扭曲(DTW)计算时间序列与时间顺序之间的最佳对齐,但在本质上不考虑空间变化。摘要提出了一种新的时间-空间比对算法,该算法利用正则化最优转移来处理时间样本间的空间差异。我们的时间对齐是通过一种称为软DTW的平滑变式来处理的,为此我们证明了一个新的性质:软DTW随时间的变化呈二次增长。我们使用的软dtw中的代价矩阵是用不平衡的OT来计算的,以处理观测值不是归一化概率的情况。手写字母和脑成像数据的实验证实了我们的理论发现,并说明STA作为时空数据的不同有效性。

作者简介:

Hicham Janati,三年级博士生,目前的工作是为神经科学设计具有最佳传输效果的机器学习模型。个人主页:https://hichamjanati.github.io/

Marco Cuturi,谷歌大脑研究科学家,巴黎理工学院CREST-ENSAE统计学教授,研究兴趣:机器学习,最优运输,优化,时间序列,内核。个人主页:http://marcocuturi.net/

成为VIP会员查看完整内容
0
13
Top