我们的目标是利用自监督学习将视频转换成一组离散的视听对象。为此,我们介绍了一个模型,它使用注意力来定位和分组声源,以及光流来随时间聚合信息。我们通过使用我们的模型学习的视听对象嵌入四个下游的面向语音的任务(a)多说话人的声源分离,(b)定位和跟踪说话人,(c)纠正不正确的视听数据,和(d)主动说话人检测的有效性。利用我们的表示法,这些任务完全可以通过训练未标记的视频来解决,而不需要物体检测器的帮助。我们还通过将我们的方法应用于非人类演讲者,包括卡通和木偶,来展示我们方法的普遍性。我们的模型显著优于其他自监督方法,并获得与使用监督人脸检测方法竞争的性能。

Self-Supervised Learning of Audio-Visual Objects from Video

https://arxiv.org/abs/2008.04237

成为VIP会员查看完整内容
0
16

相关内容

自监督学习(self-supervised learning)可以被看作是机器学习的一种“理想状态”,模型直接从无标签数据中自行学习,无需标注数据。

在观看视频时,视觉事件的发生往往伴随着声音事件,如唇动的声音,乐器演奏的音乐。视听事件之间存在着一种潜在的相关性,通过解决视听同步的代理任务,可以将其作为自监督信息来训练神经网络。在本文中,我们提出了一种新的带有共同注意力机制的自监督框架来学习无标记视频中的通用跨模态表示,并进一步使下游任务受益。具体而言,我们探讨了三个不同的共注意模块,以关注与声音相关的区分视觉区域,并介绍它们之间的相互作用。实验表明,与现有方法相比,我们的模型在参数较少的情况下,取得了较好的效果。为了进一步评估我们方法的可推广性和可迁移性,我们将预训练的模型应用于两个下游任务,即声源定位和动作识别。大量的实验表明,我们的模型可以提供与其他自监督方法竞争的结果,也表明我们的方法可以处理具有挑战性的场景包含多个声源。

https://arxiv.org/abs/2008.05789

成为VIP会员查看完整内容
0
25

理想情况下,我们希望将两个几何对象插入到一个函数中,然后通过函数来说明它们之间的相似性。这将允许我们回答关于下游应用程序中几何数据的不同层次上的各种问题。然而,对于高级任务,如计算样式相似度或三维形状之间的顶点到顶点映射,直接在原始几何数据上进行这些操作是困难的,因为更抽象的任务需要更结构化的聚合信息。实现这种相似性函数的一种方法是首先计算这些数据到嵌入空间的映射,从而对不同几何元素之间的有意义的关系进行编码,例如在风格上,更相似的形状嵌入得更紧密。通过利用这个嵌入空间,我们可以计算并输出相似度度量。然而,手工构建保存这些属性的映射是很困难的,因为为越来越抽象的任务制定显式规则或模型变得越来越具有挑战性。因此,我们使用了由人类提供的与任务相关的元信息的几何数据集合。这允许我们通过使用神经网络灵活地制定地图计算,而不用对映射图本身的形式做太多假设。为了从广泛可用的机器学习技术中获益,我们必须首先考虑如何选择合适的几何数据表示作为各种学习模型的输入。具体来说,根据数据源的可用性和任务的特定需求,我们从图像、点云和三角形网格计算嵌入。一旦我们找到了对输入进行编码的合适方法,我们就会探索不同的方法来塑造学习到的中间域(嵌入),这超越了直接的基于分类分布的交叉熵最小化方法。

https://sites.google.com/view/geometry-learning-foundation/schedule#h.p_am99P6ELk_gL

成为VIP会员查看完整内容
0
24

借助现代的高容量模型,大数据已经推动了机器学习的许多领域的革命,但标准方法——从标签中进行监督学习,或从奖励功能中进行强化学习——已经成为瓶颈。即使数据非常丰富,获得明确指定模型必须做什么的标签或奖励也常常是棘手的。收集简单的类别标签进行分类对于数百万计的示例来说是不可能的,结构化输出(场景解释、交互、演示)要糟糕得多,尤其是当数据分布是非平稳的时候。

自监督学习是一个很有前途的替代方法,其中开发的代理任务允许模型和代理在没有明确监督的情况下学习,这有助于对感兴趣的任务的下游性能。自监督学习的主要好处之一是提高数据效率:用较少的标记数据或较少的环境步骤(在强化学习/机器人技术中)实现可比较或更好的性能。

自监督学习(self-supervised learning, SSL)领域正在迅速发展,这些方法的性能逐渐接近完全监督方法。

成为VIP会员查看完整内容
0
126

人类的视觉系统证明,用极少的样本就可以学习新的类别;人类不需要一百万个样本就能学会区分野外的有毒蘑菇和可食用蘑菇。可以说,这种能力来自于看到了数百万个其他类别,并将学习到的表现形式转化为新的类别。本报告将正式介绍机器学习与热力学之间的联系,以描述迁移学习中学习表征的质量。我们将讨论诸如速率、畸变和分类损失等信息理论泛函如何位于一个凸的,所谓的平衡曲面上。我们规定了在约束条件下穿越该表面的动态过程,例如,一个调制速率和失真以保持分类损失不变的等分类过程。我们将演示这些过程如何完全控制从源数据集到目标数据集的传输,并保证最终模型的性能。

成为VIP会员查看完整内容
0
137

从图像中进行自监督学习的目标是通过不需要对大量训练图像进行语义注释的前置任务来构造语义上有意义的图像表示。许多前置任务导致与图像变换协变的表示。相反,我们认为语义表示在这种转换下应该是不变的。具体来说,我们开发了前置不变表示学习(PIRL,发音为“pearl”),该学习基于前置任务的不变表示。我们将PIRL与一个常用的前置任务一起使用,该任务涉及解决拼图游戏。我们发现,PIRL极大地提高了学习图像表示的语义质量。我们的方法设置了一个新的艺术的自监督学习从图像上几个流行的基准自我监督学习。尽管是无监督的,但PIRL在学习图像表示和目标检测方面的表现优于有监督的前训练。总之,我们的结果证明了具有良好不变性的图像表示的自监督学习的潜力。

成为VIP会员查看完整内容
0
40

主题: Weakly-Supervised Salient Object Detection via Scribble Annotations

摘要: 与费力的逐像素密集标记相比,这种方法更容易通过涂抹来标记数据,仅花费1-2秒即可标记一张图像。然而,尚未有人探索使用可划线标签来学习显着物体检测。在本文中,我们提出了一种弱监督的显着物体检测模型,以从此类注释中学习显着性。为此,我们首先使用乱码对现有的大型显着物体检测数据集进行重新标记,即S-DUTS数据集。由于对象的结构和详细信息不能通过乱写识别,因此直接训练带有乱写的标签将导致边界位置局限性的显着性图。为了缓解这个问题,我们提出了一个辅助的边缘检测任务来明确地定位对象边缘,并提出了门控结构感知损失以将约束置于要恢复的结构范围上。此外,我们设计了一种涂鸦增强方案来迭代地整合我们的涂鸦注释,然后将其作为监督来学习高质量的显着性图。我们提出了一种新的度量标准,称为显着性结构测量,用于测量预测显着性图的结构对齐方式,这与人类的感知更加一致。在六个基准数据集上进行的大量实验表明,我们的方法不仅优于现有的弱监督/无监督方法,而且与几种完全监督的最新模型相提并论。

成为VIP会员查看完整内容
0
32

主题: Learning Video Object Segmentation from Unlabeled Videos

摘要:

我们提出了一种新的视频对象分割方法(VOS),解决了从未标记的视频中学习对象模式的问题,而现有的方法大多依赖于大量的带注释的数据。我们引入了一个统一的无监督/弱监督学习框架,称为MuG,它全面地捕捉了VOS在多个粒度上的内在特性。我们的方法可以帮助提高对VOS中可视模式的理解,并显著减少注释负担。经过精心设计的体系结构和强大的表示学习能力,我们的学习模型可以应用于各种VOS设置,包括对象级零镜头VOS、实例级零镜头VOS和单镜头VOS。实验表明,在这些设置下,有良好的性能,以及利用无标记数据进一步提高分割精度的潜力。

成为VIP会员查看完整内容
0
29
小贴士
相关论文
Min-Hung Chen,Baopu Li,Yingze Bao,Ghassan AlRegib,Zsolt Kira
6+阅读 · 2020年3月18日
Yang Liu
21+阅读 · 2019年3月25日
Ke Sun,Zhanxing Zhu,Zhouchen Lin
6+阅读 · 2019年2月28日
Wenhan Luo,Peng Sun,Fangwei Zhong,Wei Liu,Tong Zhang,Yizhou Wang
3+阅读 · 2018年6月1日
Marc Brittain,Peng Wei
3+阅读 · 2018年5月18日
Chenglong Li,Liang Lin,Wangmeng Zuo,Jin Tang,Ming-Hsuan Yang
5+阅读 · 2018年4月30日
Yiluan Guo,Ngai-Man Cheung
4+阅读 · 2018年4月2日
Lijun Li,Boqing Gong
5+阅读 · 2018年3月21日
Pengkai Zhu,Hanxiao Wang,Tolga Bolukbasi,Venkatesh Saligrama
5+阅读 · 2018年3月19日
Limin Wang,Wei Li,Wen Li,Luc Van Gool
3+阅读 · 2017年11月24日
Top