通过使用用大规模标记数据训练的深度学习模型,计算机视觉取得了令人印象深刻的进展。然而,标签需要专业知识和管理,而且收集起来很贵。如果不使用显式管理的标签,人们能发现有用的视觉表示吗?在这次演讲中,我将介绍几个探索自我监督学习范式的案例研究——将原始数据作为自己的监督。我们将讨论在高维空间中定义目标函数的几种方法,包括使用一般对抗网络(GANs)直接从数据中学习目标函数。将展示图像合成中的应用,包括自动着色、成对和非成对图像到图像的转换(aka pix2pix和cycleGAN)、基于好奇心的探索

成为VIP会员查看完整内容
0
35

相关内容

自监督学习(self-supervised learning)可以被看作是机器学习的一种“理想状态”,模型直接从无标签数据中自行学习,无需标注数据。

深度卷积网络的出现推动了视觉识别领域的新一波进步。这些学习到的表示大大优于手工设计的特征,在视觉任务上获得更高的性能,同时在数据集上有更好的泛化性。尽管这些模型看起来很普遍,但当它们所训练的数据与所要求操作的数据之间存在不匹配时,它们仍然会受到影响。领域适应提供了一种潜在的解决方案,允许我们将网络从源领域训练到新的目标领域。在这些领域中,标记数据是稀疏的或完全缺失的。然而,在端到端可学习表示出现之前,视觉域适应技术很大程度上局限于在固定的、手工设计的视觉特征上训练的分类器。在这篇论文中,我们展示了如何将视觉域适应与深度学习相结合,以直接学习能够适应域移动的表示,从而使模型能够泛化到源域之外。

在第2章中,我们将演示如何设计损失,以衡量两个领域的不同程度。我们表明,通过优化表示来最小化这些损失,我们可以学习从源到目标更好地泛化的表示。在第3章和第4章中,我们展示了我们可以训练模型来尝试测量域差异,而不是手工设计这些域损失。由于这些模型本身是端到端可学习的,我们可以通过它们反向传播来学习表示,从而最小化学习的差异。这在概念上与生成式对抗网络类似,我们还探索了两者之间的关系,以及我们如何在对抗环境中使用为GANs开发的技术。最后,在第5章和第6章中,我们证明了适应性不需要局限于深度网络的中间特征。对抗适应技术也可以用于训练模型,直接改变图像的像素,将它们转换成跨域的类似物。然后,这些转换后的图像可以用作标记的伪目标数据集,以学习更适合目标领域的监督模型。我们表明,这种技术是基于特征的适应性的补充,当两者结合时产生更好的性能。

https://www2.eecs.berkeley.edu/Pubs/TechRpts/2020/EECS-2020-69.html

成为VIP会员查看完整内容
0
22

来自UIUC最新《自监督学习》教程,

  • 数据预测
  • 彩色化
  • Transformation 预测
  • 上下文预测,拼图游戏解决,旋转预测
  • 深度聚类和实例预测
  • 对比学习
  • PIRL, MoCo, SimCLR, SWaV
  • 自我监督
  • 音频、视频、语言

成为VIP会员查看完整内容
0
38

自监督学习由于能够避免标注大规模数据集的成本而受到欢迎。它能够采用自定义的伪标签作为监督,并将学习到的表示用于几个下游任务。具体来说,对比学习最近已成为计算机视觉、自然语言处理(NLP)等领域的自主监督学习方法的主要组成部分。它的目的是将同一个样本的增广版本嵌入到一起,同时试图将不同样本中的嵌入推开。这篇论文提供了一个广泛的自我监督的方法综述,遵循对比的方法。本研究解释了在对比学习设置中常用的借口任务,以及到目前为止提出的不同架构。接下来,我们将对图像分类、目标检测和动作识别等多个下游任务的不同方法进行性能比较。最后,我们总结了目前方法的局限性和需要进一步的技术和未来方向取得实质性进展。

https://arxiv.org/abs/2011.00362

概述:

随着深度学习技术的发展,它已成为目前大多数智能系统的核心组件之一。深度神经网络(DNNs)能够从现有的大量数据中学习丰富的模式,这使得它在大多数计算机视觉(CV)任务(如图像分类、目标检测、图像分割、动作识别)以及自然语言处理(NLP)任务(如句子分类、语言模型、机器翻译等)中成为一种引人注目的方法。然而,由于手工标注数百万个数据样本的工作量很大,从标记数据中学习特征的监督方法已经几乎达到了饱和。这是因为大多数现代计算机视觉系统(受监督的)都试图通过查找大型数据集中数据点及其各自注释之间的模式来学习某种形式的图像表示。像GRAD-CAM[1]这样的工作提出了一种技术,可以为模型所做的决策提供可视化的解释,从而使决策更加透明和可解释。

传统的监督学习方法很大程度上依赖于可用的带注释的训练数据的数量。尽管有大量的可用数据,但缺乏注解促使研究人员寻找替代方法来利用它们。这就是自监督方法在推动深度学习的进程中发挥重要作用的地方,它不需要昂贵的标注,也不需要学习数据本身提供监督的特征表示。

监督学习不仅依赖昂贵的注释,而且还会遇到泛化错误、虚假的相关性和对抗攻击[2]等问题。最近,自监督学习方法集成了生成和对比方法,这些方法能够利用未标记的数据来学习潜在的表示。一种流行的方法是提出各种各样的代理任务,利用伪标签来帮助学习特征。诸如图像inpainting、灰度图像着色、拼图游戏、超分辨率、视频帧预测、视听对应等任务已被证明是学习良好表示的有效方法。

生成式模型在2014年引入生成对抗网络(GANs)[3]后得到普及。这项工作后来成为许多成功架构的基础,如CycleGAN[4]、StyleGAN[5]、PixelRNN[6]、Text2Image[7]、DiscoGAN [8]等。这些方法激发了更多的研究人员转向使用无标签数据在自监督的设置下训练深度学习模型。尽管取得了成功,研究人员开始意识到基于GAN的方法的一些并发症。它们很难训练,主要有两个原因: (a)不收敛——模型参数发散很多,很少收敛; (b)鉴别器太过成功,导致生成网络无法产生类似真实的假信号,导致学习无法继续。此外,生成器和判别器之间需要适当的同步,以防止判别器收敛和生成器发散。

成为VIP会员查看完整内容
0
25

使用生成模型的无监督学习具有发现3D场景丰富表示的潜力。这种神经场景表示可能随后支持各种下游任务,从机器人技术到计算机图形再到医学成像。然而,现有的方法忽略了场景最基本的属性之一:三维结构。在这项工作中,我们使神经场景表征与一个感应偏差的三维结构的情况。我们证明了这种归纳偏差如何使无监督的发现几何和外观,只给定的二维图像。通过学习一组这样的三维结构感知神经表征的分布,我们可以执行联合重建的三维形状和外观只给出一个单一的二维观察。我们表明,在这个过程中学习到的特征使整个类对象的三维语义分割成为可能,只训练了30个带标记的例子,证明了三维形状、外观和语义分割之间的紧密联系。最后,我们讨论了场景表示学习在计算机视觉本身中的本质和潜在作用,并讨论了未来工作的前景。

成为VIP会员查看完整内容
0
44

借助现代的高容量模型,大数据已经推动了机器学习的许多领域的革命,但标准方法——从标签中进行监督学习,或从奖励功能中进行强化学习——已经成为瓶颈。即使数据非常丰富,获得明确指定模型必须做什么的标签或奖励也常常是棘手的。收集简单的类别标签进行分类对于数百万计的示例来说是不可能的,结构化输出(场景解释、交互、演示)要糟糕得多,尤其是当数据分布是非平稳的时候。

自监督学习是一个很有前途的替代方法,其中开发的代理任务允许模型和代理在没有明确监督的情况下学习,这有助于对感兴趣的任务的下游性能。自监督学习的主要好处之一是提高数据效率:用较少的标记数据或较少的环境步骤(在强化学习/机器人技术中)实现可比较或更好的性能。

自监督学习(self-supervised learning, SSL)领域正在迅速发展,这些方法的性能逐渐接近完全监督方法。

成为VIP会员查看完整内容
0
87

【导读】Yann Lecun在纽约大学开设的2020春季《深度学习》课程,干货满满。最新的一期是来自Facebook AI的研究科学家Ishan Misra讲述了计算机视觉中的自监督学习最新进展,108页ppt,很不错报告。

在过去的十年中,许多不同的计算机视觉问题的主要成功方法之一是通过对ImageNet分类进行监督学习来学习视觉表示。并且,使用这些学习的表示,或学习的模型权值作为其他计算机视觉任务的初始化,在这些任务中可能没有大量的标记数据。

但是,为ImageNet大小的数据集获取注释是非常耗时和昂贵的。例如:ImageNet标记1400万张图片需要大约22年的人类时间。

因此,社区开始寻找替代的标记过程,如社交媒体图像的hashtags、GPS定位或自我监督方法,其中标签是数据样本本身的属性。

什么是自监督学习?

定义自我监督学习的两种方式:

  • 基础监督学习的定义,即网络遵循监督学习,标签以半自动化的方式获得,不需要人工输入。

  • 预测问题,其中一部分数据是隐藏的,其余部分是可见的。因此,其目的要么是预测隐藏数据,要么是预测隐藏数据的某些性质。

自监督学习与监督学习和非监督学习的区别:

  • 监督学习任务有预先定义的(通常是人为提供的)标签,

  • 无监督学习只有数据样本,没有任何监督、标记或正确的输出。

  • 自监督学习从给定数据样本的共现形式或数据样本本身的共现部分派生出其标签。

自然语言处理中的自监督学习

Word2Vec

  • 给定一个输入句子,该任务涉及从该句子中预测一个缺失的单词,为了构建文本前的任务,该任务特意省略了该单词。

  • 因此,这组标签变成了词汇表中所有可能的单词,而正确的标签是句子中省略的单词。

  • 因此,可以使用常规的基于梯度的方法对网络进行训练,以学习单词级表示。

为什么自监督学习

自监督学习通过观察数据的不同部分如何交互来实现数据的学习表示。从而减少了对大量带注释数据的需求。此外,可以利用可能与单个数据样本相关联的多个模式。

计算机视觉中的自我监督学习

通常,使用自监督学习的计算机视觉管道涉及执行两个任务,一个前置任务和一个下游任务。

  • 下游任务可以是任何类似分类或检测任务的任务,但是没有足够的带注释的数据样本。

  • Pre-text task是为学习视觉表象而解决的自监督学习任务,其目的是利用所学习的表象,或下游任务在过程中获得的模型权值。

发展Pre-text任务

  • 针对计算机视觉问题的文本前任务可以使用图像、视频或视频和声音来开发。

  • 在每个pre-text任务中,都有部分可见和部分隐藏的数据,而任务则是预测隐藏的数据或隐藏数据的某些属性。

下载链接: 链接: https://pan.baidu.com/s/1gNK4DzqtAMXyrD1fBFGa-w 提取码: ek7i

成为VIP会员查看完整内容
0
96

题目: Self-Supervised Viewpoint Learning From Image Collections

简介:

训练深度神经网络以估计对象的视点需要标记大型训练数据集。但是,手动标记视点非常困难,容易出错且耗时。另一方面,从互联网(例如汽车或人脸)上挖掘许多未分类的物体类别图像相对容易。我们试图回答这样的研究问题:是否可以仅通过自我监督将这种未标记的野外图像集合成功地用于训练一般对象类别的视点估计网络。这里的自我监督是指网络具有的唯一真正的监督信号是输入图像本身。我们提出了一种新颖的学习框架,该框架结合了“综合分析”范式,利用生成网络以视点感知的方式重构图像,并具有对称性和对抗性约束,以成功地监督我们的视点估计网络。我们表明,对于人脸,汽车,公共汽车和火车等几个对象类别,我们的方法在完全监督方法上具有竞争性。我们的工作为自我监督的观点学习开辟了进一步的研究,并为其提供了坚实的基础。

成为VIP会员查看完整内容
0
17

拥有视觉先验(例如,检测物体的能力)是否有助于学习执行基于视觉的操作(例如,拾取物体)?我们在迁移学习的框架下研究这个问题,其中模型首先被训练在一个被动的视觉任务上,然后被调整来执行一个主动的操作任务。我们发现视觉任务的预训练显著地提高了学习操作对象的泛化和样本效率。然而,实现这些收益需要谨慎地选择模型的哪些部分进行转换。我们的主要观点是,标准视觉模型的输出与操作中常用的可视性映射高度相关。因此,我们探索了将模型参数直接从视觉网络转移到启示预测网络的方法,并证明了这一方法可以成功地实现零距离自适应,即机器人可以在零经验的情况下拾取特定的物体。只需少量的机器人经验,我们就可以进一步微调启示模型,以获得更好的结果。只需10分钟的吸力体验或1小时的抓取体验,我们的方法就可以获得80%的成功率来抓取新奇的对象。

成为VIP会员查看完整内容
0
11

【导读】如何利用未标记数据进行机器学习是当下研究的热点。最近自监督学习、对比学习等提出用于解决该问题。最近来自Google大脑团队的Luong博士介绍了无标记数据学习的进展,半监督学习以及他们最近重要的两个工作:无监督数据增强和自训练学习,是非常好的前沿材料。

深度学习尽管取得了很大成功,但通常在小标签训练集中表现不佳。利用未标记数据改善深度学习一直是一个重要的研究方向,其中半监督学习是最有前途的方法之一。在本次演讲中,Luong博士将介绍无监督数据增强(UDA),这是我们最近的半监督学习技术,适用于语言和视觉任务。使用UDA,我们仅使用一个或两个数量级标记较少的数据即可获得最先进的性能。

在本次演讲中,Luong博士首先解释了基本的监督机器学习。在机器学习中,计算机视觉的基本功能是利用图像分类来识别和标记图像数据。监督学习需要输入和标签才能与输入相关联。通过这样做,您可以教AI识别图像是什么,无论是对象,人类,动物等。Luong博士继续进一步解释神经网络是什么,以及它们如何用于深度学习。这些网络旨在模仿人类大脑的功能,并允许AI自己学习和解决问题。

成为VIP会员查看完整内容
0
68

简介: 论文中提出了一种新颖的自我监督方法,称为视频结束程序(VCP),以学习丰富的时空表示形式。 VCP首先通过保留视频剪辑来生成“空白”,然后通过对保留的剪辑进行时空操作来创建“选项”。最后,它用“选项”填补空白,并通过预测应用于剪辑的操作类别来学习表示形式。VCP可以充当自我监督学习中的代理任务或目标任务。Asaproxy任务将丰富的自我监督表示转换为视频剪辑操作(选项),从而增强了学习的灵活性和简化性。作为目标任务,它可以以统一且可解释的方式评估学习的表示模型。使用VCP,可以训练时空表示模型(3D-CNN),并应用这种模型进行动作识别和视频检索任务。

成为VIP会员查看完整内容
0
25
小贴士
相关论文
Tengda Han,Weidi Xie,Andrew Zisserman
0+阅读 · 1月11日
Self-supervised pre-training and contrastive representation learning for multiple-choice video QA
Seonhoon Kim,Seohyeong Jeong,Eunbyul Kim,Inho Kang,Nojun Kwak
3+阅读 · 2020年12月14日
Humam Alwassel,Dhruv Mahajan,Bruno Korbar,Lorenzo Torresani,Bernard Ghanem,Du Tran
3+阅读 · 2020年10月26日
Xiao Liu,Fanjin Zhang,Zhenyu Hou,Zhaoyu Wang,Li Mian,Jing Zhang,Jie Tang
8+阅读 · 2020年7月21日
Self-labelling via simultaneous clustering and representation learning
Yuki Markus Asano,Christian Rupprecht,Andrea Vedaldi
3+阅读 · 2019年11月26日
Xiaohua Zhai,Avital Oliver,Alexander Kolesnikov,Lucas Beyer
3+阅读 · 2019年5月9日
Avisek Lahiri,Charan Reddy,Prabir Kumar Biswas
3+阅读 · 2018年10月4日
Zhang-Wei Hong,Chen Yu-Ming,Shih-Yang Su,Tzu-Yun Shann,Yi-Hsiang Chang,Hsuan-Kung Yang,Brian Hsi-Lin Ho,Chih-Chieh Tu,Yueh-Chuan Chang,Tsu-Ching Hsiao,Hsin-Wei Hsiao,Sih-Pin Lai,Chun-Yi Lee
4+阅读 · 2018年4月29日
Zuxuan Wu,Ting Yao,Yanwei Fu,Yu-Gang Jiang
8+阅读 · 2018年2月22日
Aljoša Ošep,Paul Voigtlaender,Jonathon Luiten,Stefan Breuers,Bastian Leibe
3+阅读 · 2017年12月23日
Top