表示学习是通过利用训练数据来学习得到向量表示,这可以克服人工方法的局限性。 表示学习通常可分为两大类,无监督和有监督表示学习。大多数无监督表示学习方法利用自动编码器(如去噪自动编码器和稀疏自动编码器等)中的隐变量作为表示。 目前出现的变分自动编码器能够更好的容忍噪声和异常值。 然而,推断给定数据的潜在结构几乎是不可能的。 目前有一些近似推断的策略。 此外,一些无监督表示学习方法旨在近似某种特定的相似性度量。提出了一种无监督的相似性保持表示学习框架,该框架使用矩阵分解来保持成对的DTW相似性。 通过学习保持DTW的shaplets,即在转换后的空间中的欧式距离近似原始数据的真实DTW距离。有监督表示学习方法可以利用数据的标签信息,更好地捕获数据的语义结构。 孪生网络和三元组网络是目前两种比较流行的模型,它们的目标是最大化类别之间的距离并最小化了类别内部的距离。

VIP内容

https://sites.google.com/view/ift6268-a2020/schedule

近年来,表示学习取得了很大的进展。大多数都是以所谓的自监督表示学习的形式。在本课程中,我们将对什么是自我监督的学习方法有一个相当广泛的解释,并在适当的时候包括一些无监督学习方法和监督学习方法。我们感兴趣的方法,学习有意义的和有效的语义表示,而不(专门)依赖标签数据。更具体地说,我们将对以下方法感兴趣,如: 数据增广任务,知识蒸馏,自蒸馏,迭代学习,对比方法 (DIM, CPC, MoCo, SimCLR等),BYOL,以及自监督方法的分析。

我们的目标是了解自监督学习方法是如何工作的,以及起作用的基本原理是什么。

这是一个关于这一主题的高级研讨会课程,因此,我们将阅读和讨论大量的最近的和经典的论文。讲座将主要由学生主导。我们假设了解了机器学习的基础知识 (特别是深度学习——正如你在IFT6135中看到的那样),我们还将探索自监督表示学习在广泛领域的应用,包括自然语言处理、计算机视觉和强化学习。

在本课程中,我们将广泛讨论自监督学习(SSL),特别是深度学习。最近,深度学习在许多应用领域取得了大量令人印象深刻的经验收益,其中最引人注目的是在目标识别和图像和语音识别的检测领域。

在本课程中,我们将探讨表示学习领域的最新进展。通过学生领导研讨会,我们将回顾最近的文献,并着眼于建立

本课程所涵盖的特定主题包括以下内容:

  • Engineering tasks for Computer Vision
  • Contrastive learning methods
  • Generative Methods
  • Bootstrap Your Own Latents (BYoL)
  • Self-distillation Methods
  • Self-training / Pseudo-labeling Methods
  • SSL for Natural Language Processing
  • Iterated Learning / Emergence of Compositional Structure
  • SSL for Video / Multi-modal data
  • The role of noise in representation learning
  • SSL for RL, control and planning
  • Analysis of Self-Supervised Methods
  • Theory of SSL
  • Unsupervised Domain Adaptation
成为VIP会员查看完整内容
1
37

最新论文

The dominant paradigm for learning video-text representations -- noise contrastive learning -- increases the similarity of the representations of pairs of samples that are known to be related, such as text and video from the same sample, and pushes away the representations of all other pairs. We posit that this last behaviour is too strict, enforcing dissimilar representations even for samples that are semantically-related -- for example, visually similar videos or ones that share the same depicted action. In this paper, we propose a novel method that alleviates this by leveraging a generative model to naturally push these related samples together: each sample's caption must be reconstructed as a weighted combination of other support samples' visual representations. This simple idea ensures that representations are not overly-specialized to individual samples, are reusable across the dataset, and results in representations that explicitly encode semantics shared between samples, unlike noise contrastive learning. Our proposed method outperforms others by a large margin on MSR-VTT, VATEX and ActivityNet, and MSVD for video-to-text and text-to-video retrieval.

0
0
下载
预览
Top