This paper is dedicated to team VAA's approach submitted to the Fashion-IQ challenge in CVPR 2020. Given a pair of the image and the text, we present a novel multimodal composition method, RTIC, that can effectively combine the text and the image modalities into a semantic space. We extract the image and the text features that are encoded by the CNNs and the sequential models (e.g., LSTM or GRU), respectively. To emphasize the meaning of the residual of the feature between the target and candidate, the RTIC is composed of N-blocks with channel-wise attention modules. Then, we add the encoded residual to the feature of the candidate image to obtain a synthesized feature. We also explored an ensemble strategy with variants of models and achieved a significant boost in performance comparing to the best single model. Finally, our approach achieved 2nd place in the Fashion-IQ 2020 Challenge with a test score of 48.02 on the leaderboard.


翻译:本文专门介绍VAA团队在2020年CVPR中向时装-IQ挑战提交的方法。根据一对图像和文本,我们展示了一种新型多式联运组成方法,即RTIC,它可以有效地将文字和图像模式结合到语义空间中,我们分别提取CNN和顺序模型(如LSTM或GRU)编码的图像和文字特征。为了强调目标与候选人之间特征剩余部分的含义,RETIC由带有频道关注模块的N区块组成。然后,我们在候选图像的特征中添加编码的剩余部分,以获得一个合成特征。我们还探索了带有模型变体的混合战略,并取得了与最佳单一模型(如LSTM或GRU)相比的显著提高绩效。最后,我们的方法在Fashason-IQ2020挑战中达到了第二位,领先板上测试分为48.02。

0
下载
关闭预览

相关内容

专知会员服务
59+阅读 · 2020年3月19日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
89+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
98+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
14+阅读 · 2019年4月13日
由浅及深,细致解读图像问答 VQA 2018 Challenge 冠军模型 Pythia
GAN生成式对抗网络
50+阅读 · 2019年3月13日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
A Sketch-Based System for Semantic Parsing
Arxiv
4+阅读 · 2019年9月12日
Attend More Times for Image Captioning
Arxiv
6+阅读 · 2018年12月8日
Arxiv
6+阅读 · 2018年5月22日
Arxiv
6+阅读 · 2018年1月29日
VIP会员
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
25+阅读 · 2019年5月18日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
14+阅读 · 2019年4月13日
由浅及深,细致解读图像问答 VQA 2018 Challenge 冠军模型 Pythia
GAN生成式对抗网络
50+阅读 · 2019年3月13日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
动物脑的好奇心和强化学习的好奇心
CreateAMind
10+阅读 · 2019年1月26日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
Capsule Networks解析
机器学习研究会
10+阅读 · 2017年11月12日
【推荐】视频目标分割基础
机器学习研究会
9+阅读 · 2017年9月19日
Top
微信扫码咨询专知VIP会员