题目: Learning Representations For Images With Hierarchical Labels

摘要:

图像分类已经得到了广泛的研究,但是除了传统的图像标签对之外,在使用非常规的外部指导来训练这些模型方面的工作还很有限。在本文中,我们提出了一组利用类标签引起的语义层次信息的方法。在论文的第一部分,我们将标签层次知识注入到任意的分类器中,并通过实验证明,将这些外部语义信息与图像的视觉语义相结合,可以提高整体性能。在这个方向上更进一步,我们使用自然语言中流行的基于保留顺序的嵌入模型来更明确地建模标签-标签和标签-图像的交互,并将它们裁剪到计算机视觉领域来执行图像分类。尽管在本质上与之相反,在新提出的、真实世界的ETH昆虫学收集图像数据集上,注入层次信息的CNN分类器和基于嵌入的模型都优于不可知层次的模型。

成为VIP会员查看完整内容
0
28

相关内容

图像分类是指给定一组各自被标记为单一类别的图像,然后对一组新的测试图像的类别进行预测,并测量预测的准确性结果。

主题: Learning Colour Representations of Search Queries

摘要: 图像搜索引擎依赖于适当设计的排名功能,这些功能可以捕获内容语义的各个方面以及历史上的流行。在这项工作中,我们考虑了色彩在相关性匹配过程中的作用。观察到很大一部分用户查询具有与之相关的固有颜色,这促使我们开展工作。虽然某些查询包含明确的颜色提及(例如“黑色汽车”和“黄色雏菊”),但其他查询却包含隐式的颜色概念(例如“天空”和“草”)。此外,颜色的基础查询不是到单一颜色的映射,而是颜色空间中的分布。例如,对“树”的搜索往往会在绿色和棕色之间形成双峰分布。我们利用历史点击数据为搜索查询生成颜色表示,并提出一种递归神经网络架构,将看不见的查询编码到颜色空间中。我们还展示了如何从印象日志中的交叉模式相关性排序器中学习该嵌入,在印象日志中单击了结果图像的子集。我们证明了查询图像颜色距离功能的使用可改善排名性能,该性能通过用户对点击图像和跳过图像的偏好来衡量。

成为VIP会员查看完整内容
0
8

题目: Hierarchical Knowledge Graphs: A Novel Information Representation for Exploratory Search Tasks

简介: 在探索性搜索任务中,除了信息检索之外,信息表示是有意义的重要因素。在本文中,我们探索了知识图的多层扩展,即层次知识图(HKG),它将层次化和网络可视化结合为统一的数据表示形式,作为支持探索性搜索工具。我们将描述我们的算法,以构建可视化效果,分析结果以定量地展示与网络的性能奇偶性以及相对于层次结构的性能优势,并从交互日志,interviews和thinkalouds的数据综合到测试平台数据集上,以证明统一的分层结构+ HKG中的网络结构。除了上述研究,我们还对精度和召回率对两种不同的探索性搜索任务的层次知识图的性能进行了其他混合方法分析。虽然定量数据显示精确度和召回率对用户性能和用户工作量的影响有限,但定性数据与事后统计分析相结合提供了证据,表明探索性搜索任务的类型(例如学习与调查)可能会受到精确度和召回影响。此外,我们的定性分析发现用户无法感知所提取信息的质量差异。我们讨论了结果的含义,并分析了在实验任务中对探索性搜索性能产生更大影响的其他因素。

成为VIP会员查看完整内容
0
33

交叉熵是图像分类模型监督训练中应用最广泛的损失函数。在这篇论文中,我们提出了一种新的训练方法,在不同架构和数据扩充的监督学习任务中,它的表现始终优于交叉熵。我们修改了批量对比损失,这是最近被证明在自监督学习强大表示是非常有效的。我们能够比交叉熵更有效地利用标签信息。在嵌入空间中,将同一类的点聚在一起,同时将不同类的样本聚在一起。除此之外,我们还利用了关键的成分,如大批量和标准化嵌入,这些已经被证明有利于自监督学习。在ResNet-50和ResNet-200上,我们的交叉熵性能都超过了1%,在使用自动增广数据增强的方法中,我们设置了78.8%的最新水平。这一损失也清楚地表明,在校准和准确性方面,对标准基准的自然损坏具有鲁棒性。与交叉熵相比,我们的监督对比损失更稳定的超参数设置,如优化或数据扩充。

成为VIP会员查看完整内容
0
41

题目: IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

摘要: 本文介绍了一种新的用于图像-文本联合嵌入的视觉语言预训练模型图像BERT。我们的模型是一个基于Transformer的模型,它以不同的模态作为输入,对它们之间的关系进行建模。该模型同时进行了四项任务的预训练:掩蔽语言建模(MLM)、掩蔽对象分类(MOC)、掩蔽区域特征回归(MRFR)和图像文本匹配(ITM)。为了进一步提高预训练的质量,我们从Web上收集了一个大规模的弱监督图像-文本(LAIT)数据集。我们首先在这个数据集上对模型进行预训练,然后对概念字幕和SBU字幕进行第二阶段的预训练。实验结果表明,多阶段预训练策略优于单阶段预训练策略。我们还在图像检索和文本检索任务上对预先训练好的ImageBERT模型进行了调优和评估,并在MSCOCO和Flickr30k数据集上获得了最好的效果。

成为VIP会员查看完整内容
0
29

NeurIPS 2019(Neural Information Processing Systems)将在12月8日-14日在加拿大温哥华举行。NeurIPS 是全球最受瞩目的AI、机器学习顶级学术会议之一,每年全球的人工智能爱好者和科学家都会在这里聚集,发布最新研究。今天小编整理了表示学习相关论文。

  1. Self-attention with Functional Time Representation Learning

作者: Da Xu, Chuanwei Ruan, Evren Korpeoglu, Sushant Kumar, Kannan Achan

摘要:在自然语言处理中,具有self-attention的序列模型已经取得了很好的效果。self-attention具有模型灵活性、计算复杂性和可解释性等优点,正逐渐成为事件序列模型的重要组成部分。然而,像大多数其他的序列模型一样,自我注意并不能解释事件之间的时间跨度,因此它捕捉的是序列信号而不是时间模式。在不依赖递归网络结构的情况下,self-attention通过位置编码来识别事件的顺序。为了弥补时间无关和时间相关事件序列建模之间的差距,我们引入了一个嵌入时间跨度到高维空间的功能特征映射。通过构造相关的平移不变时间核函数,揭示了经典函数函数分析结果下特征图的函数形式,即Bochner定理和Mercer定理。我们提出了几个模型来学习函数性时间表示以及与事件表示的交互。这些方法是在各种连续时间事件序列预测任务下对真实数据集进行评估的。实验结果表明,所提出的方法与基线模型相比,具有更好的性能,同时也能捕获有用的时间-事件交互。
论文链接:
https://papers.nips.cc/paper/9720-self-attention-with-functional-time-representation-learning

  1. Large Scale Adversarial Representation Learning

作者:Jeff Donahue, Karen Simonyan

摘要:对抗训练生成模型(GANs)最近取得了引人注目的图像合成结果。GANs在无监督的表现学习中尽管在早期取得了的成功,但是它们已经被基于自监督的方法所取代。在这项工作中,我们证明了图像生成质量的进步转化为极大地改进了表示学习性能。我们的方法BigBiGAN建立在最先进的BigGAN模型之上,通过添加编码器和修改鉴别器将其扩展到表示学习。我们广泛地评估了这些BigBiGAN模型的表示学习和生成能力,证明了这些基于生成的模型在ImageNet的无监督表示学习方面达到了最新的水平,并在无条件生成图像方面取得了令人信服的结果。

论文链接: https://papers.nips.cc/paper/9240-large-scale-adversarial-representation-learning

  1. Rethinking Kernel Methods for Node Representation Learning on Graphs

作者:Yu Tian, Long Zhao, Xi Peng, Dimitris Metaxas

摘要:图核是度量图相似性的核心方法,是图分类的标准工具。然而,作为与图表示学习相关的一个问题,使用核方法进行节点分类仍然是不适定的,目前最先进的方法大多基于启发式。在这里,我们提出了一个新的基于核的节点分类理论框架,它可以弥补这两个图上表示学习问题之间的差距。我们的方法是由图核方法驱动的,但是扩展到学习捕获图中结构信息的节点表示。我们从理论上证明了我们的公式与任何半正定核一样强大。为了有效地学习内核,我们提出了一种新的节点特征聚合机制和在训练阶段使用的数据驱动的相似度度量。更重要的是,我们的框架是灵活的,并补充了其他基于图形的深度学习模型,如图卷积网络(GCNs)。我们在一些标准节点分类基准上对我们的方法进行了经验评估,并证明我们的模型设置了最新的技术状态。
论文链接: https://papers.nips.cc/paper/9342-rethinking-kernel-methods-for-node-representation-learning-on-graphs

  1. Continual Unsupervised Representation Learning

作者:Dushyant Rao, Francesco Visin, Andrei Rusu, Razvan Pascanu, Yee Whye Teh, Raia Hadsell

摘要:持续学习旨在提高现代学习系统处理非平稳分布的能力,通常是通过尝试按顺序学习一系列任务。该领域的现有技术主要考虑监督或强化学习任务,并经常假设对任务标签和边界有充分的认识。在这项工作中,我们提出了一种方法(CURL)来处理一个更普遍的问题,我们称之为无监督连续学习。重点是在不了解任务身份的情况下学习表示,我们将探索任务之间的突然变化、从一个任务到另一个任务的平稳过渡,甚至是数据重组时的场景。提出的方法直接在模型中执行任务推断,能够在其生命周期内动态扩展以捕获新概念,并结合其他基于排练的技术来处理灾难性遗忘。我们用MNIST和Omniglot演示了CURL在无监督学习环境中的有效性,在这种环境中,没有标签可以确保没有关于任务的信息泄露。此外,与现有技术相比,我们在i.i.中表现出了较强的性能。在i.i.d的设置下,或将该技术应用于监督任务(如渐进式课堂学习)时。 论文链接: https://papers.nips.cc/paper/8981-continual-unsupervised-representation-learning

  1. Unsupervised Scalable Representation Learning for Multivariate Time Series

作者: Jean-Yves Franceschi, Aymeric Dieuleveut, Martin Jaggi

摘要:由于时间序列在实际应用中具有高度可变的长度和稀疏标记,因此对机器学习算法而言,时间序列是一种具有挑战性的数据类型。在本文中,我们提出了一种学习时间序列通用嵌入的无监督方法来解决这一问题。与以前的工作不同,它的长度是可伸缩的,我们通过深入实验和比较来展示学习表示的质量、可移植性和实用性。为此,我们将基于因果扩张卷积的编码器与基于时间负采样的新三重态损耗相结合,获得了可变长度和多元时间序列的通用表示。
论文链接: https://papers.nips.cc/paper/8713-unsupervised-scalable-representation-learning-for-multivariate-time-series

  1. A Refined Margin Distribution Analysis for Forest Representation Learning

作者:Shen-Huan Lyu, Liang Yang, Zhi-Hua Zhou

摘要:在本文中,我们将森林表示学习方法casForest作为一个加法模型,并证明当与边际标准差相对于边际均值的边际比率足够小时,泛化误差可以以O(ln m/m)为界。这激励我们优化比例。为此,我们设计了一种边际分布的权重调整方法,使深林模型的边际比较小。实验验证了边缘分布与泛化性能之间的关系。我们注意到,本研究从边缘理论的角度对casForest提供了一个新的理解,并进一步指导了逐层的森林表示学习。

论文链接: https://papers.nips.cc/paper/8791-a-refined-margin-distribution-analysis-for-forest-representation-learning

  1. Adversarial Fisher Vectors for Unsupervised Representation Learning

作者:Shuangfei Zhai, Walter Talbott, Carlos Guestrin, Joshua Susskind

摘要:我们通过基于深度能量的模型(EBMs)来研究生成对抗网络(GANs),目的是利用从这个公式推导出的密度模型。与传统的鉴别器在达到收敛时学习一个常数函数的观点不同,这里我们证明了它可以为后续的任务提供有用的信息,例如分类的特征提取。具体来说,在EBM公式中,鉴别器学习一个非归一化密度函数(即,负能量项),它描述了数据流形。我们建议通过从EBM中获得相应的Fisher分数和Fisher信息来评估生成器和鉴别器。我们证明了通过假设生成的示例形成了对学习密度的估计,费雪信息和归一化费雪向量都很容易计算。我们还证明了我们能够推导出例子之间和例子集之间的距离度量。我们进行的实验表明,在分类和感知相似性任务中,甘氏神经网络诱导的费雪向量作为无监督特征提取器表现出了竞争力。代码地址:https://github.com/apple/ml-afv。
论文链接: https://papers.nips.cc/paper/9295-adversarial-fisher-vectors-for-unsupervised-representation-learning

  1. vGraph: A Generative Model for Joint Community Detection and Node Representation Learning

作者:Fan-Yun Sun, Meng Qu, Jordan Hoffmann, Chin-Wei Huang, Jian Tang

摘要:本文重点研究了图数据分析的两个基本任务:社区检测和节点表示学习,它们分别捕获图数据的全局结构和局部结构。在现有的文献中,这两个任务通常是独立研究的,但实际上是高度相关的。提出了一种协作学习社区成员和节点表示的概率生成模型vGraph。具体地说,我们假设每个节点都可以表示为群落的混合,并且每个群落都定义为节点上的多项分布。混合系数和群落分布均由节点和群落的低维表示参数化。我们设计了一种有效的变分推理算法,通过反向传播进行优化,使相邻节点的社区成员关系在潜在空间中相似。在多个真实图上的实验结果表明,vGraph在社区检测和节点表示学习两方面都非常有效,在两方面都优于许多有竞争力的基线。结果表明,该vGraph框架具有良好的灵活性,可以方便地扩展到层次社区的检测。
论文链接: https://papers.nips.cc/paper/8342-vgraph-a-generative-model-for-joint-community-detection-and-node-representation-learning

成为VIP会员查看完整内容
0
46

题目: Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification

简介:

多标签图像和视频分类是计算机视觉中最基本也是最具挑战性的任务。主要的挑战在于捕获标签之间的空间或时间依赖关系,以及发现每个类的区别特征的位置。为了克服这些挑战,我们提出将语义图嵌入的跨模态注意用于多标签分类。基于所构造的标签图,我们提出了一种基于邻接的相似图嵌入方法来学习语义标签嵌入,该方法显式地利用了标签之间的关系。在学习标签嵌入的指导下,生成了新的跨模态注意图。在两个多标签图像分类数据集(MS-COCO和NUS-WIDE)上的实验表明,我们的方法优于其他现有的方法。此外,我们在一个大的多标签视频分类数据集上验证了我们的方法,评估结果证明了我们的方法的泛化能力。

成为VIP会员查看完整内容
0
68

论文题目

基于卷积神经网络的基因组序列基序的表示学习,Representation learning of genomic sequence motifs with convolutional neural networks

论文简介

尽管卷积神经网络(CNNs)已经被应用于各种计算基因组学问题,但是在我们理解它们如何构建调控基因组序列的表达方面仍然存在很大的差距。在这里,我们对合成序列进行了系统的实验,以揭示CNN结构,特别是卷积滤波器大小和最大池,如何影响序列模体表示被第一层滤波器学习的程度。我们发现,设计用于培养序列模体的层次表示学习的CNNs在更深的层次将部分特征组装成整体特征倾向于学习分布式表示,即部分模体。另一方面,设计用于限制在较深层中分层构建序列基序表示的能力的CNNs倾向于学习更多可解释的局部表示,即整个基序。然后,我们验证了从合成序列建立的表示学习原理推广到体内序列。

论文作者

Peter K. Koo ,隶属美国马萨诸塞州剑桥哈佛大学分子与细胞生物学系霍华德休斯医学院。

成为VIP会员查看完整内容
0
11

Joint image-text embedding is the bedrock for most Vision-and-Language (V+L) tasks, where multimodality inputs are jointly processed for visual and textual understanding. In this paper, we introduce UNITER, a UNiversal Image-TExt Representation, learned through large-scale pre-training over four image-text datasets (COCO, Visual Genome, Conceptual Captions, and SBU Captions), which can power heterogeneous downstream V+L tasks with joint multimodal embeddings. We design three pre-training tasks: Masked Language Modeling (MLM), Image-Text Matching (ITM), and Masked Region Modeling (MRM, with three variants). Different from concurrent work on multimodal pre-training that apply joint random masking to both modalities, we use conditioned masking on pre-training tasks (i.e., masked language/region modeling is conditioned on full observation of image/text). Comprehensive analysis shows that conditioned masking yields better performance than unconditioned masking. We also conduct a thorough ablation study to find an optimal setting for the combination of pre-training tasks. Extensive experiments show that UNITER achieves new state of the art across six V+L tasks (over nine datasets), including Visual Question Answering, Image-Text Retrieval, Referring Expression Comprehension, Visual Commonsense Reasoning, Visual Entailment, and NLVR2.

1
19
下载
预览
小贴士
相关VIP内容
专知会员服务
41+阅读 · 2020年4月24日
专知会员服务
46+阅读 · 2019年12月22日
相关论文
AJ Piergiovanni,Anelia Angelova,Michael S. Ryoo
17+阅读 · 2020年2月26日
Zhen Zhang,Jiajun Bu,Martin Ester,Jianfeng Zhang,Chengwei Yao,Zhi Yu,Can Wang
6+阅读 · 2019年11月14日
UNITER: Learning UNiversal Image-TExt Representations
Yen-Chun Chen,Linjie Li,Licheng Yu,Ahmed El Kholy,Faisal Ahmed,Zhe Gan,Yu Cheng,Jingjing Liu
19+阅读 · 2019年9月25日
Xiaohua Zhai,Avital Oliver,Alexander Kolesnikov,Lucas Beyer
4+阅读 · 2019年5月9日
Yingtian Zou,Jiashi Feng
6+阅读 · 2019年4月19日
Tencent ML-Images: A Large-Scale Multi-Label Image Database for Visual Representation Learning
Baoyuan Wu,Weidong Chen,Yanbo Fan,Yong Zhang,Jinlong Hou,Junzhou Huang,Wei Liu,Tong Zhang
8+阅读 · 2019年1月7日
Chung-Wei Lee,Wei Fang,Chih-Kuan Yeh,Yu-Chiang Frank Wang
7+阅读 · 2018年5月26日
Xin Wang,Wenhu Chen,Jiawei Wu,Yuan-Fang Wang,William Yang Wang
20+阅读 · 2018年3月29日
Nelson Nauata,Jonathan Smith,Greg Mori
5+阅读 · 2018年1月21日
Top