【泡泡一分钟】针对大尺度多标签分类问题的深度行列式点过程模型 (ICCV2017-48)

2018 年 7 月 6 日 泡泡机器人SLAM

每天一分钟,带你读遍机器人顶级会议文章

标题Deep Determinantal Point Process for Large-Scale Multi-Label Classification

作者:Pengtao Xie, Ruslan Salakhutdinov,Luntian Mou,Eric P.Xing

来源:ICCV 2017

播音员:丸子

编译:王健,周平(50)

欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权

摘要

       大家好,今天为大家带来的文章是——大规模多标签分类的深层决定点过程,该文章发表于ICCV2017。


    我们在最近发布的两个数据集(Youtube-8M,Open Images)上研究大尺度多标签分类(MLC)问题,这些数据集包含数百万个数据实例和数千个分类。前所未有的问题规模给MLC带来了巨大的挑战。首先,从指数级的数据中选择出正确的标签子集会带来明显的数据模糊性和不确定性;再者,巨大的数据量和分类数量需要消耗相当大的计算成本。为了解决第一个问题,我们研究了两种策略:从训练数据中获取标签的相关性,并结合从外部知识中获得的标签共现关系,这样能有效地消除语义不一致的标签,并为区分视觉信息模糊的标签提供语义线索。明确地说也就是,我们提出了深度行列式点过程(DDPP)模型,它能够将DPP和深度神经网络(DNN)完美地结合,并支持端到端多标签学习和深层表示学习。DPP能够以多项式计算成本的方式捕获任何顺序的标签相关性,而DNN能够学习图像/视频的分层特征并能捕获输入数据和标签之间的依赖关系。为了结合有关标签共现关系的外部知识,我们对DDPP中的核矩阵施以相关正则化。为了解决第二个问题,我们在诱导点法的基础上研究了一种有效的低秩核学习算法。通过实验证明了所提出的方法在两个数据集上的有效性。

图1. 用于多标签分类的DDPP。 DDPP的输入包括图像或视频,标签的嵌入矢量和(可选的)关于标签共现的必要的或不可能的链接,并且输出是所选标签的子集。 DDPP使用DPP捕获标签之间的相关性,使用DNN表征图像和标签之间的依赖关系,并通过关系正则化合并必要的或不可能的链接关系。

图2.在DDPP中,条件核函数~k(ai,aj|x)是标签-标签核函数k(ai,aj)与两个标签输入得分函数g(ai,x), g(AJ,X)的乘积。k(ai,aj)由标签相关网络(LCN)表征,g(ai,x)由视觉特征网络(VFN)和标签输入依赖网络(LIDN)表示。

表1. 显示出在Youtube-8M 验证集上的MLC性能(%)

Abstract

      We study large-scale multi-label classification (MLC) on two recently released datasets: Youtube-8M and Open Images that contain millions of data instances and thousands of classes. The unprecedented problem scale poses great challenges for MLC. First, finding out the correct label subset out of exponentially many choices incurs substantial ambiguity and uncertainty. Second, the large data-size and class-size entail considerable computational cost. To address the first challenge, we investigate two strategies: capturing label-correlations from the training data and incorporating label co-occurrence relations obtained from external knowledge, which effectively eliminate semantically inconsistent labels and provide contextual clues to differentiate visually ambiguous labels. Specifically, we propose a Deep Determinantal Point Process (DDPP) model which seamlessly integrates a DPP with deep neural networks (DNNs) and supports end-to-end multi-label learning and deep representation learning. The DPP is able to capture label-correlations of any order with a polynomial computational cost, while the DNNs learn hierarchical features of images/videos and capture the dependency between input data and labels. To incorporate external knowledge about label co-occurrence relations, we impose relational regularization over the kernel matrix in DDPP. To address the second challenge, we study an efficient low-rank kernel learning algorithm based on inducing point methods. Experiments on the two datasets demonstrate the efficacy and efficiency of the proposed methods.


如果你对本文感兴趣,想要下载完整文章进行阅读,可以关注【泡泡机器人SLAM】公众号

欢迎来到泡泡论坛,这里有大牛为你解答关于SLAM的任何疑惑。

有想问的问题,或者想刷帖回答问题,泡泡论坛欢迎你!

泡泡网站:www.paopaorobot.org

泡泡论坛:http://paopaorobot.org/forums/


泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成,希望大家珍惜我们的劳动成果,转载请务必注明出自【泡泡机器人SLAM】微信公众号,否则侵权必究!同时,我们也欢迎各位转载到自己的朋友圈,让更多的人能进入到SLAM这个领域中,让我们共同为推进中国的SLAM事业而努力!

商业合作及转载请联系liufuqiang_robot@hotmail.com

登录查看更多
1

相关内容

【CVPR2020】跨模态哈希的无监督知识蒸馏
专知会员服务
59+阅读 · 2020年6月25日
【CVPR2020-Oral】用于深度网络的任务感知超参数
专知会员服务
25+阅读 · 2020年5月25日
【KDD2020】多源深度域自适应的时序传感数据
专知会员服务
59+阅读 · 2020年5月25日
【CVPR2020-CMU】无数据模型选择,一种深度框架潜力
专知会员服务
21+阅读 · 2020年4月12日
自回归模型:PixelCNN
专知会员服务
25+阅读 · 2020年3月21日
专知会员服务
41+阅读 · 2020年2月20日
【泡泡一分钟】用于深度双目的非监督适应方法(ICCV-2017)
泡泡机器人SLAM
10+阅读 · 2018年10月7日
【泡泡一分钟】一种用于在线视频理解的高效卷积网络
泡泡机器人SLAM
5+阅读 · 2018年5月31日
【泡泡一分钟】端到端的弱监督语义对齐
泡泡机器人SLAM
53+阅读 · 2018年4月5日
Arxiv
8+阅读 · 2018年5月1日
VIP会员
相关VIP内容
Top
微信扫码咨询专知VIP会员