交叉熵是图像分类模型监督训练中应用最广泛的损失函数。在这篇论文中,我们提出了一种新的训练方法,在不同架构和数据扩充的监督学习任务中,它的表现始终优于交叉熵。我们修改了批量对比损失,这是最近被证明在自监督学习强大表示是非常有效的。我们能够比交叉熵更有效地利用标签信息。在嵌入空间中,将同一类的点聚在一起,同时将不同类的样本聚在一起。除此之外,我们还利用了关键的成分,如大批量和标准化嵌入,这些已经被证明有利于自监督学习。在ResNet-50和ResNet-200上,我们的交叉熵性能都超过了1%,在使用自动增广数据增强的方法中,我们设置了78.8%的最新水平。这一损失也清楚地表明,在校准和准确性方面,对标准基准的自然损坏具有鲁棒性。与交叉熵相比,我们的监督对比损失更稳定的超参数设置,如优化或数据扩充。

成为VIP会员查看完整内容
0
52

相关内容

用已知某种或某些特性的样本作为训练集,以建立一个数学模型(如模式识别中的判别模型,人工神经网络法中的权重模型等),再用已建立的模型来预测未知样本,此种方法称为有监督学习。是最常见的机器学习方法。

题目: Debiased Contrastive Learning

摘要:

自监督表示学习的一项突出技术是对比语义相似和不相似的样本对。如果无法访问标签,通常会将不同的(负)点视为随机采样的数据点,隐式地接受这些点实际上可能具有相同的标签。不足为奇的是,我们观察到在具有标签的综合环境中,从真正不同的标签中抽取负面样本可以提高性能。受此观察结果的启发,开发了一种反偏差对比目标,即使不知道真实的标签,也可以校正相同标签的数据点的采样。从经验上讲,拟议的目标在视觉,语言和强化学习基准方面始终优于最新的代表性学习。从理论上讲,我们为下游分类任务建立概括边界。

成为VIP会员查看完整内容
0
62

我们介绍了一种通过对比图的结构视图来学习节点和图级表示的自监督方法。我们表明,与视觉表示学习不同,增加视图数量到两个以上或对比多尺度编码不会提高性能,而最佳性能是通过对比一阶邻居编码和图扩散来实现的。在线性评估协议下,我们在8个节点中的8个和图分类基准上实现了新的最先进的自监督学习结果。例如,在Cora(节点)和reddy - binary(图形)分类基准上,我们实现了86.8%和84.5%的准确率,相对于之前的最先进水平分别提高了5.5%和2.4%。与监督基准相比,我们的方法在8个基准中有4个优于监督基准。

成为VIP会员查看完整内容
0
49

题目: CURL: Contrastive Unsupervised Representations for Reinforcement Learning

摘要:

我们提出了CURL:用于强化学习的对比无监督表示法。CURL使用对比学习从原始像素中提取高级特征,并在提取的特征之上执行off-policy控制。在DeepMind控制套件和Atari游戏中,在100K交互步骤基准测试中,CURL在复杂任务上的表现优于先前基于模型和非模型的基于像素的方法,分别提高了2.8倍和1.6倍的性能。在DeepMind控制套件中,CURL是第一个基于图像的算法,它的效率和性能几乎与使用基于状态的特性的方法不相上下。

成为VIP会员查看完整内容
0
23

题目

跨语言表示学习,Unsupervised Cross-lingual Representation Learning at Scale

关键词

自然语言处理,表示学习,跨语言,人工智能

简介

本文表明,针对多种跨语言转换任务,大规模地对多语言语言模型进行预训练可以显着提高性能。 我们使用超过2 TB的经过过滤的CommonCrawl数据在一百种语言上训练了基于Transformer的屏蔽语言模型。 我们的模型称为XLM-R,在各种跨语言基准测试中,其性能明显优于多语言BERT(mBERT),包括XNLI的平均精度为+ 13.8%,MLQA的平均F1得分为+ 12.3%,NER的平均F1得分为+ 2.1%。 XLM-R在低资源语言上表现特别出色,与以前的XLM模型相比,斯瓦希里语的XNLI准确性提高了11.8%,乌尔都语的准确性提高了9.2%。 我们还对获得这些收益所需的关键因素进行了详细的实证评估,包括(1)积极转移和能力稀释以及(2)大规模资源资源的高低性能之间的权衡。 最后,我们首次展示了在不牺牲每种语言性能的情况下进行多语言建模的可能性。 XLM-R在GLUE和XNLI基准测试中具有强大的单语言模型,因此非常具有竞争力。 我们将公开提供XLM-R代码,数据和模型。

作者

Alexis Conneau, Kartikay Khandelwal等。

成为VIP会员查看完整内容
0
20

我们常常希望将表征性知识从一个神经网络转移到另一个神经网络。例如,将一个大的网络提炼成一个较小的网络,将知识从一种感觉模态传递到另一种感觉模态,或者将一组模型集成到一个单独的估计器中。知识蒸馏是解决这些问题的标准方法,它最小化了教师和学生网络的概率输出之间的KL分歧。我们证明这一目标忽视了教师网络的重要结构知识。这激发了另一个目标,通过这个目标,我们训练学生从老师对数据的描述中获取更多的信息。我们把这个目标称为对比学习。实验表明,我们得到的新目标在各种知识转移任务(包括单模型压缩、集成蒸馏和跨模态转移)上的性能优于知识蒸馏和其他前沿蒸馏器。我们的方法在许多转移任务中设置了一个新的水平,有时甚至超过教师网络与知识蒸馏相结合。

成为VIP会员查看完整内容
0
39

【导读】如何利用未标记数据进行机器学习是当下研究的热点。最近自监督学习、对比学习等提出用于解决该问题。最近来自Google大脑团队的Luong博士介绍了无标记数据学习的进展,半监督学习以及他们最近重要的两个工作:无监督数据增强和自训练学习,是非常好的前沿材料。

深度学习尽管取得了很大成功,但通常在小标签训练集中表现不佳。利用未标记数据改善深度学习一直是一个重要的研究方向,其中半监督学习是最有前途的方法之一。在本次演讲中,Luong博士将介绍无监督数据增强(UDA),这是我们最近的半监督学习技术,适用于语言和视觉任务。使用UDA,我们仅使用一个或两个数量级标记较少的数据即可获得最先进的性能。

在本次演讲中,Luong博士首先解释了基本的监督机器学习。在机器学习中,计算机视觉的基本功能是利用图像分类来识别和标记图像数据。监督学习需要输入和标签才能与输入相关联。通过这样做,您可以教AI识别图像是什么,无论是对象,人类,动物等。Luong博士继续进一步解释神经网络是什么,以及它们如何用于深度学习。这些网络旨在模仿人类大脑的功能,并允许AI自己学习和解决问题。

成为VIP会员查看完整内容
0
78

我们提出了一个多语言神经机器翻译的概率框架,它包括监督和非监督设置,重点是无监督翻译。除了研究只有单语数据可用的基本情况外,我们还提出了一种新的设置,即(源、目标)对中的一种语言不与任何并行数据相关联,但可能存在包含另一种语言的辅助并行数据。通过一个新的交叉翻译损失项,这些辅助数据可以很自然地用在我们的概率框架中。经验表明,我们的方法在大多数方向的WMT'14英-法、WMT'16英-德、WMT'16英-罗数据集上,比最先进的无监督模型获得更高的BLEU分数。特别是,我们获得了+1.65 BLEU的优势,在罗马尼亚-英国方向的最佳表现的无监督模式。

成为VIP会员查看完整内容
0
30

元学习已被提出作为一个框架来解决具有挑战性的小样本学习设置。关键的思想是利用大量相似的小样本任务,以学习如何使基学习者适应只有少数标记的样本可用的新任务。由于深度神经网络(DNNs)倾向于只使用少数样本进行过度拟合,元学习通常使用浅层神经网络(SNNs),因此限制了其有效性。本文提出了一种新的学习方法——元转移学习(MTL)。具体来说,“meta”是指训练多个任务,“transfer”是通过学习每个任务的DNN权值的缩放和变换函数来实现的。此外,我们还介绍了作为一种有效的MTL学习课程的困难任务元批处理方案。我们使用(5类,1次)和(5类,5次)识别任务,在两个具有挑战性的小样本学习基准上进行实验:miniImageNet和Fewshot-CIFAR100。通过与相关文献的大量比较,验证了本文提出的HT元批处理方案训练的元转移学习方法具有良好的学习效果。消融研究还表明,这两种成分有助于快速收敛和高精度。

地址:

https://arxiv.org/abs/1812.02391

代码:

https://github.com/yaoyao-liu/meta-transfer-learning

成为VIP会员查看完整内容
0
121

题目

深度残差强化学习,Deep Residual Reinforcement Learning

关键字

强化学习,残差算法,机器学习

简介

我们在无模型和基于模型的强化学习设置中重新研究残差算法。 我们建议使用双向目标网络技术来稳定残差算法,从而产生DDPG的残差版本,该版本明显优于DeepMind Control Suite基准测试中的原始DDPG。 此外,我们发现残差算法是解决基于模型的规划中分布不匹配问题的有效方法。 与现有的TD(k)方法相比,我们的基于残差的方法对模型的假设更弱,并且性能提升更大。

作者

Shangtong Zhang, Wendelin Boehmer, Shimon Whiteson,来自牛津大学

成为VIP会员查看完整内容
0
49

This paper presents SimCLR: a simple framework for contrastive learning of visual representations. We simplify recently proposed contrastive self-supervised learning algorithms without requiring specialized architectures or a memory bank. In order to understand what enables the contrastive prediction tasks to learn useful representations, we systematically study the major components of our framework. We show that (1) composition of data augmentations plays a critical role in defining effective predictive tasks, (2) introducing a learnable nonlinear transformation between the representation and the contrastive loss substantially improves the quality of the learned representations, and (3) contrastive learning benefits from larger batch sizes and more training steps compared to supervised learning. By combining these findings, we are able to considerably outperform previous methods for self-supervised and semi-supervised learning on ImageNet. A linear classifier trained on self-supervised representations learned by SimCLR achieves 76.5% top-1 accuracy, which is a 7% relative improvement over previous state-of-the-art, matching the performance of a supervised ResNet-50. When fine-tuned on only 1% of the labels, we achieve 85.8% top-5 accuracy, outperforming AlexNet with 100X fewer labels.

0
20
下载
预览
小贴士
相关论文
Aravind Srinivas,Michael Laskin,Pieter Abbeel
12+阅读 · 2020年4月28日
Learning in the Frequency Domain
Kai Xu,Minghai Qin,Fei Sun,Yuhao Wang,Yen-Kuang Chen,Fengbo Ren
8+阅读 · 2020年3月12日
Ting Chen,Simon Kornblith,Mohammad Norouzi,Geoffrey Hinton
20+阅读 · 2020年2月13日
Aaron van den Oord,Yazhe Li,Oriol Vinyals
5+阅读 · 2019年1月22日
Luke Metz,Niru Maheswaranathan,Brian Cheung,Jascha Sohl-Dickstein
7+阅读 · 2018年5月23日
Babak Hosseini,Barbara Hammer
3+阅读 · 2018年5月2日
Baida Hamdan,Davood Zabihzadeh,Monsefi Reza
5+阅读 · 2018年4月5日
Krishnan Kumaran,Dimitri Papageorgiou,Yutong Chang,Minhan Li,Martin Takáč
8+阅读 · 2018年3月28日
Enver Sangineto,Moin Nabi,Dubravko Culibrk,Nicu Sebe
8+阅读 · 2018年2月21日
Top