【ACMMM2020】面向目标的视觉对话的应答驱动视觉状态估计器

10 月 12 日 专知
【ACMMM2020】面向目标的视觉对话的应答驱动视觉状态估计器


面向目标的视觉对话包括两个代理者,提问者和Oracle之间的多回合交互。在此期间,Oracle给出的答案是非常重要的,因为它为提问者所关心的问题提供了黄金回答。在回答的基础上,提问者更新了对目标视觉内容的信念,进而提出了另一个问题。值得注意的是,不同的答案会导致不同的视觉信念和未来问题。但是,现有的方法往往是在问题长得多的情况下对答案进行不加区分的编码,导致对答案的利用率较低。在本文中,我们提出了一个答案驱动的视觉状态估计器(ADVSE),以施加不同的答案对视觉状态的影响。首先,我们提出了一种基于回答驱动的聚焦注意力(ADFA),通过在每个回合强化与问题相关的注意力并通过基于回答的逻辑操作来调整注意力,来捕捉对视觉注意力的回答驱动效应。然后在聚焦注意力的基础上,通过条件视觉信息融合(CVIF)对问题-应答状态进行融合,得到整体信息和差异信息的视觉状态估计。


https://www.zhuanzhi.ai/paper/b5a7d7470b5a493f6ee7f6d38bfc16c2

专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“ADVSE” 可以获取《【ACMMM2020】面向目标的视觉对话的应答驱动视觉状态估计器》专知下载链接索引

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
0

相关内容

视觉对话主要任务为:AI代理与人类以自然的会话语言对视觉内容进行有意义的对话。具体而言,给定图像,对话历史和关于图像的问题,代理必须将问题置于图像中,从历史推断上下文,并准确的回答问题。视觉对话具有访问和理解的多轮对话历史,所以需要一个可以组合多个信息源的编码器。

视觉对话是一项具有挑战性的任务,它需要从视觉(图像)和文本(对话历史)上下文中提取隐含信息。经典的方法更多地关注当前问题、视觉知识和文本知识的整合,忽略了跨模态信息之间的异构语义鸿沟。同时,连接操作已成为跨模式信息融合的事实标准,其信息检索能力有限。本文提出了一种新的知识桥接图网络模型,利用图在细粒度上桥接视觉知识和文本知识之间的跨模式语义关系,并通过自适应的信息选择模式检索所需的知识。此外,视觉对话的推理线索可以清晰地从模态内实体和模态间桥梁中提取出来。VisDial v1.0和VisDial- q数据集上的实验结果表明,我们的模型优于现有的模型,取得了最新的结果。

https://www.zhuanzhi.ai/paper/6a3e359d8827752a98f2e5daa7079d2a

成为VIP会员查看完整内容
0
12
小贴士
相关论文
Ye Liu,Hui Li,Alberto Garcia-Duran,Mathias Niepert,Daniel Onoro-Rubio,David S. Rosenblum
7+阅读 · 2019年3月13日
Hierarchical LSTMs with Adaptive Attention for Visual Captioning
Jingkuan Song,Xiangpeng Li,Lianli Gao,Heng Tao Shen
5+阅读 · 2018年12月26日
Wenhan Luo,Peng Sun,Fangwei Zhong,Wei Liu,Tong Zhang,Yizhou Wang
3+阅读 · 2018年6月1日
Bing Liu,Gokhan Tur,Dilek Hakkani-Tur,Pararth Shah,Larry Heck
5+阅读 · 2018年4月18日
Kuang-Huei Lee,Xi Chen,Gang Hua,Houdong Hu,Xiaodong He
3+阅读 · 2018年3月21日
Jiuxiang Gu,Shafiq Joty,Jianfei Cai,Gang Wang
4+阅读 · 2018年3月14日
David Mascharka,Philip Tran,Ryan Soklaski,Arjun Majumdar
6+阅读 · 2018年3月14日
Caglar Aytekin,Francesco Cricri,Emre Aksu
6+阅读 · 2018年2月8日
Heng Fan,Haibin Ling
7+阅读 · 2018年1月30日
Abhinav Moudgil,Vineet Gandhi
7+阅读 · 2017年12月28日
Top