我们提出并分析了一种基于动量的梯度方法,用于训练具有指数尾损失(例如,指数或logistic损失)的线性分类器,它以O (1/t2)的速率最大化可分离数据的分类边缘。这与标准梯度下降的速率O(1/log(t))和标准化梯度下降的速率O(1/t)形成对比。这种基于动量的方法是通过最大边际问题的凸对偶,特别是通过将Nesterov加速度应用于这种对偶,从而在原函数中得到了一种简单而直观的方法。这种对偶观点也可以用来推导随机变量,通过对偶变量进行自适应非均匀抽样。

https://www.zhuanzhi.ai/paper/9fd848dc95d2b0a9a5da37dbbd79d4ed

成为VIP会员查看完整内容
0
7

相关内容

最优化是应用数学的一个分支,主要指在一定条件限制下,选取某种研究方案使目标达到最优的一种方法。最优化问题在当今的军事、工程、管理等领域有着极其广泛的应用。

最近解开深度学习中的隐式正则化之谜的努力促使了对矩阵分解的理论关注——通过线性神经网络的矩阵完成。作为对实际深度学习的进一步研究,我们首次对张量因子分解中的隐正则化进行了理论分析——通过某种非线性神经网络的张量补全。我们采用动力学系统的观点,规避了张量问题的困难,刻画了梯度下降引起的演化。给出了贪心低张量秩搜索的一种形式,在一定条件下给出了严格的证明,并在其他条件下给出了经验证明。基于张量秩捕获非线性神经网络隐含正则化的动机,我们将其作为复杂性的度量方法进行了实证研究,并发现它捕获了神经网络所泛化的数据集的本质。这使我们相信张量秩可以为解释深度学习中的隐正则化以及将这种隐正则化转换为泛化的真实数据的特性铺平道路。

成为VIP会员查看完整内容
0
12

最近最优传输(OT)理论在机器学习中的几个应用都依赖于正则化,尤其是熵和Sinkhorn算法。由于矩阵向量乘积在Sinkhorn算法中是普遍存在的,一些工作已经提出使用低秩因子来近似其迭代中出现的核矩阵。另一种方法是在OT问题中考虑的可行耦合集上施加低非负秩约束,不需要对代价或核矩阵进行逼近。这条路线首先由forrow2018探索,他提出了一种为平方欧氏地面成本量身定制的算法,使用了一个代理目标,可以通过正则化的Wasserstein重心机制来解决。在此基础上,我们引入了一种通用方法,旨在完全通用性地解决具有任意代价的低非负秩约束下的OT问题。我们的算法依赖于低秩耦合的显式分解,将其作为由公共边际连接的子耦合因子的乘积; 与NMF方法类似,我们交替更新这些因素。证明了该算法的非渐近平稳收敛性,并通过基准实验证明了该算法的有效性。

https://www.zhuanzhi.ai/paper/9f498d13bd99855dfac185ee9d905999

成为VIP会员查看完整内容
0
25

对抗训练是提高模型对抗扰动鲁棒性的最有效技术之一。然而,这种方法对模型的全部影响还没有被很好地理解。例如,虽然对抗训练可以减少对抗风险(针对对手的预测错误),但它有时会增加标准风险(没有对手时的泛化错误)。在本文中,我们关注于分布扰动对手框架,其中对手可以改变训练数据分布的邻域内的测试分布。邻域是通过分布之间的Wasserstein距离定义的,邻域的半径是对手操纵能力的度量。我们研究了标准风险和对抗风险之间的权衡,并推导了在特征维数不变的无限数据限制下,在特定类型的模型上可实现的Pareto最优权衡。我们考虑了三种学习设置:1) 线性模型类的回归; 2) 二元分类下的高斯混合数据模型,用线性分类器分类; 3)用一类随机特征模型进行回归(可等效表示为第一层权值为随机的两层神经网络)。我们表明,标准风险和对抗性风险之间的权衡在所有三种情况下都得到了体现。我们进一步描述了Pareto最优权衡曲线,并讨论了各种因素,如特征相关性、对手的力量或两层神经网络的宽度会如何影响这种权衡。

https://www.zhuanzhi.ai/paper/e511cb93baf31c0a8c8549bd4b2a42ef

成为VIP会员查看完整内容
0
12

用反向传播方法训练深度残差神经网络(ResNets)的记忆成本随网络深度的增加而线性增加。规避这个问题的一种方法是使用可逆的架构。本文提出通过增加动量项来改变ResNet的正向规则。所得到的网络,动量剩余神经网络(动量ResNets)是可逆的。与以前的可逆架构不同,它们可以作为任何现有的ResNet块的替代。我们证明动量ResNets可以被解释为二阶常微分方程(ode),并准确地描述了如何逐步增加动量增加动量ResNets的表示能力。我们的分析显示,Momentum ResNets可以学习任何线性映射到一个倍增因子,而ResNets不能。在优化设置的学习中,需要收敛到一个不动点,我们从理论上和经验上证明了我们的方法成功,而现有的可逆架构失败。我们在CIFAR和ImageNet上展示了Momentum ResNets与ResNets具有相同的精度,但占用的内存要小得多,并展示了预训练的Momentum ResNets对模型的微调是有前途的。

https://www.zhuanzhi.ai/paper/867b3834167694dab97cf812135dc273

成为VIP会员查看完整内容
0
22

虽然许多现有的图神经网络(gnn)已被证明可以执行基于ℓ2的图平滑,从而增强全局平滑,但在本工作中,我们旨在通过基于ℓ1的图平滑进一步增强GNN的局部平滑自适应。在此基础上,提出了一种基于ℓ1和ℓ2图平滑的弹性GNN。特别地,我们提出了一种新的、通用的消息传递方案。该消息传递算法不仅有利于反向传播训练,而且在保证理论收敛的前提下达到了预期的平滑特性。在半监督学习任务上的实验表明,所提出的弹性GNN在基准数据集上具有较好的自适应能力,对图对抗攻击具有显著的鲁棒性。

https://www.zhuanzhi.ai/paper/09bea7a76036948cbbba30e86af56ef8

成为VIP会员查看完整内容
0
27

后验贝叶斯神经网络(BNN)参数是非常高维和非凸的。出于计算上的原因,研究人员使用廉价的小批量方法来近似这种后变方法,如平均场变分推断或随机梯度马尔科夫链蒙特卡罗(SGMCMC)。为了研究贝叶斯深度学习中的基础问题,我们在现代体系结构中使用全批量哈密顿蒙特卡罗(HMC)。我们证明: (1)与标准训练和深度集成相比,BNNs可以获得显著的性能增益; (2)单一的HMC长链可以提供多个较短链后验的可比性表示;(3)与最近的研究相比,我们发现不需要后验回火来获得接近最佳的性能,几乎没有证据表明存在“冷后验”效应,这主要是数据增强的人为影响;(4) BMA对先验尺度的选择具有较强的鲁棒性,对对角高斯、混合高斯和logistic先验的选择具有较强的相似性;(5)贝叶斯神经网络在域移下泛化性能差;(6)虽然深度集成和SGMCMC等廉价方法可以提供良好的泛化,但它们提供的预测分布与HMC不同。值得注意的是,深度集成预测分布与标准SGLD的HMC相似,比标准变分推断更接近。

https://www.zhuanzhi.ai/paper/175b8f7c93633d4479ce659fce81c737

成为VIP会员查看完整内容
0
23

本文研究了任务自适应预训练模型的选择问题,这是一个有待探讨的问题,即如何评估预训练模型,以便在不进行微调的情况下从模型族中选择适合任务的模型。一项试点工作(Nguyen等人,2020年)解决了将有监督的预训练模型转移到分类任务中的问题,但它不能处理新兴的无监督的预训练模型或回归任务。

为了寻求一种实用的评估方法,我们提出了估计标签的最大证据(边缘似然),在给定预先训练模型提取的特征。与似然值相比,最大证据值不容易出现过拟合,而且通过我们精心设计的算法可以大大减少昂贵的计算量。最大证据对数(LogME)可以用来评估迁移学习的预训练模型:LogME高的预训练模型可能具有良好的迁移性能。LogME具有快速、准确、通用的特点,是第一个实用的迁移学习评估方法。相对于蛮力微调,LogME在时间上带来了超过3000倍的加速。它在设置上比以前的方法有很大的优势,并且适用于以前的方法不能处理的新设置。它对于不同的预训练模型(有监督的预训练和无监督的预训练)、下游任务(分类和回归)和模式(视觉和语言)来说是足够普遍的。

成为VIP会员查看完整内容
0
9

高维黑盒优化仍然是一个重要但却极富挑战性的问题。尽管贝叶斯优化方法在连续域上取得了成功,但对于分类域,或者混合了连续变量和分类变量的域,仍然具有挑战性。我们提出了一种新的解决方案——我们将局部优化与定制的内核设计相结合,有效地处理高维分类和混合搜索空间,同时保持样本效率。我们进一步推导了该方法的收敛性保证。最后,我们通过经验证明,我们的方法在性能、计算成本或两者方面都优于当前的各种合成和现实任务基准。

https://www.zhuanzhi.ai/paper/caddcda9300c2842d75559e1b57a8304

成为VIP会员查看完整内容
0
18

图神经网络(GNN)中缺乏各向异性核极大地限制了其表达能力,导致了一些众所周知的问题,如过度平滑。为了克服这个限制,我们提出了第一个全局一致的各向异性核GNN,允许根据拓扑导出的方向流定义图卷积。首先,通过在图中定义矢量场,我们提出了一种方法应用方向导数和平滑投影节点特定的信息到场。然后,我们提出用拉普拉斯特征向量作为这种向量场。在Weisfeiler-Lehman 1-WL检验方面,我们证明了该方法可以在n维网格上泛化CNN,并证明比标准的GNN更有分辨力。我们在不同的标准基准上评估了我们的方法,发现在CIFAR10图数据集上相对误差减少了8%,在分子锌数据集上相对误差减少了11%到32%,在MolPCBA数据集上相对精度提高了1.6%。这项工作的重要成果是,它使图网能够以一种无监督的方式嵌入方向,从而能够更好地表示不同物理或生物问题中的各向异性特征。

https://www.zhuanzhi.ai/paper/f415f74f0c50433285945af702223eaf

成为VIP会员查看完整内容
0
65

排名,尤其是搜索和推荐系统中的排名,通常决定了人们如何访问信息以及信息如何暴露给人们。因此,如何平衡信息披露的相关性和公平性是现代信息披露系统的关键问题之一。由于传统的排名框架将文档与相关性进行短视排序,这将不可避免地引入不公平的结果曝光,最近关于排名公平性的研究主要集中在动态排名范式,其中结果排名可以实时调整,以支持群体(如种族、性别等)的公平性。然而,现有关于动态学习排序公平性的研究,往往通过显著牺牲排名前结果的相关性和公平性来实现排序列表中文档曝光的总体公平性。为了解决这一问题,我们提出了一种公平无偏的排序方法——最大边际公平(maximum Marginal Fairness, MMF)。该算法集成了对相关性和基于绩效的公平性的无偏估计,同时提供了一个显式控制器来平衡文档的选择,以最大化top-k结果的边际相关性和公平性。理论分析和实证分析表明,我们的方法在长列表公平性上有较小的妥协,在top-k排序的相关性和公平性方面都取得了优于现有算法的效率和有效性。

https://www.zhuanzhi.ai/paper/d73684afc23a9d77ab4f6f18bb5b1ba7

成为VIP会员查看完整内容
0
9
小贴士
相关VIP内容
专知会员服务
12+阅读 · 2021年8月24日
专知会员服务
25+阅读 · 2021年8月20日
专知会员服务
12+阅读 · 2021年8月6日
专知会员服务
22+阅读 · 2021年7月19日
专知会员服务
27+阅读 · 2021年7月17日
专知会员服务
23+阅读 · 2021年5月18日
专知会员服务
65+阅读 · 2021年5月10日
专知会员服务
9+阅读 · 2021年3月13日
相关资讯
互信息及其在图表示学习的应用
AINLP
3+阅读 · 2020年6月21日
详解常见的损失函数
七月在线实验室
16+阅读 · 2018年7月12日
无问西东,只问哈希
线性资本
3+阅读 · 2018年1月18日
深度 | 结合Logistic回归构建最大熵马尔科夫模型
机器之心
3+阅读 · 2017年11月25日
干货 | 深度学习之损失函数与激活函数的选择
机器学习算法与Python学习
13+阅读 · 2017年9月18日
机器学习(16)之支持向量机原理(二)软间隔最大化
机器学习算法与Python学习
6+阅读 · 2017年9月8日
EKF常用于目标跟踪系统的扩展卡尔曼滤波器
无人机
8+阅读 · 2017年7月25日
相关论文
Jianping Ye,Caleb Wan,Samy Wu Fung
0+阅读 · 2021年9月3日
Alexander Ostermann,Fangyan Yao,Yifei Wu
0+阅读 · 2021年9月2日
Tuvi Etzion
0+阅读 · 2021年9月1日
Ziwei Ji,Nathan Srebro,Matus Telgarsky
4+阅读 · 2021年7月1日
Frustratingly Simple Few-Shot Object Detection
Xin Wang,Thomas E. Huang,Trevor Darrell,Joseph E. Gonzalez,Fisher Yu
3+阅读 · 2020年3月16日
Manifold Approximation by Moving Least-Squares Projection (MMLS)
Barak Sober,David Levin
3+阅读 · 2019年3月7日
To Cluster, or Not to Cluster: An Analysis of Clusterability Methods
A. Adolfsson,M. Ackerman,N. C. Brownstein
3+阅读 · 2018年8月24日
Shuai Zheng,Chris Ding,Feiping Nie
6+阅读 · 2018年4月13日
Top