【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络 - 专知

会员服务 ·

0

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

2020 年 8 月 12 日 专知

视觉对话是一项具有挑战性的任务，它需要从视觉(图像)和文本(对话历史)上下文中提取隐含信息。经典的方法更多地关注当前问题、视觉知识和文本知识的整合，忽略了跨模态信息之间的异构语义鸿沟。同时，连接操作已成为跨模式信息融合的事实标准，其信息检索能力有限。本文提出了一种新的知识桥接图网络模型，利用图在细粒度上桥接视觉知识和文本知识之间的跨模式语义关系，并通过自适应的信息选择模式检索所需的知识。此外，视觉对话的推理线索可以清晰地从模态内实体和模态间桥梁中提取出来。VisDial v1.0和VisDial- q数据集上的实验结果表明，我们的模型优于现有的模型，取得了最新的结果。

https://www.zhuanzhi.ai/paper/6a3e359d8827752a98f2e5daa7079d2a

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“KBGN” 可以获取《【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络》专知下载链接索引

专 · 知

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程视频资料和与专家交流咨询！

点击“阅读原文”，了解使用专知，查看5000+AI主题知识资料

登录查看更多

10

相关内容

视觉对话

视觉对话主要任务为：AI代理与人类以自然的会话语言对视觉内容进行有意义的对话。具体而言，给定图像，对话历史和关于图像的问题，代理必须将问题置于图像中，从历史推断上下文，并准确的回答问题。视觉对话具有访问和理解的多轮对话历史，所以需要一个可以组合多个信息源的编码器。

【ACMMM2020】面向目标的视觉对话的应答驱动视觉状态估计器

【ACMMM2020】面向目标的视觉对话的应答驱动视觉状态估计器

专知会员服务

18+阅读 · 2020年10月11日

【ACMMM2020】条件推理的医学视觉问答

【ACMMM2020】条件推理的医学视觉问答

专知会员服务

39+阅读 · 2020年9月9日

【ACM MM2020】食品数据集ISIA Food-500：全局局部注意力网络

【ACM MM2020】食品数据集ISIA Food-500：全局局部注意力网络

专知会员服务

37+阅读 · 2020年9月6日

【ECCV2020】通过最小化逆动力学分歧来实现从观察中模仿学习

【ECCV2020】通过最小化逆动力学分歧来实现从观察中模仿学习

专知会员服务

15+阅读 · 2020年9月6日

【ACMMM2020】零样本语义分割的上下文感知特征生成

【ACMMM2020】零样本语义分割的上下文感知特征生成

专知会员服务

16+阅读 · 2020年8月21日

【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习

【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习

专知会员服务

28+阅读 · 2020年8月14日

【ACMMM2020-北航】协作双路径度量的小样本学习

【ACMMM2020-北航】协作双路径度量的小样本学习

专知会员服务

29+阅读 · 2020年8月11日

【KDD2020】多源深度域自适应的时序传感数据

【KDD2020】多源深度域自适应的时序传感数据

专知会员服务

62+阅读 · 2020年5月25日

近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码

近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码

专知会员服务

37+阅读 · 2020年1月10日

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

专知会员服务

29+阅读 · 2019年11月23日

【KDD2020】动态知识图谱的多事件预测

【KDD2020】动态知识图谱的多事件预测

专知

88+阅读 · 2020年8月31日

【KDD2020-阿里】可调控的多兴趣推荐框架

【KDD2020-阿里】可调控的多兴趣推荐框架

专知

9+阅读 · 2020年8月11日

【KDD2020-清华大学】属性图嵌入的自适应图编码器

【KDD2020-清华大学】属性图嵌入的自适应图编码器

专知

30+阅读 · 2020年7月8日

CVPR2020最新《小样本学习》综述教程，145页ppt带你学习最新FSL进展

CVPR2020最新《小样本学习》综述教程，145页ppt带你学习最新FSL进展

专知

40+阅读 · 2020年6月20日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

专知

12+阅读 · 2020年3月29日

【WWW2020论文-香港中文大学】MAGNN:异构图嵌入的集合图神经网络

【WWW2020论文-香港中文大学】MAGNN:异构图嵌入的集合图神经网络

专知

33+阅读 · 2020年2月13日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

19+阅读 · 2019年11月24日

微软论文解读：用于视觉对话的多步双重注意力模型

微软论文解读：用于视觉对话的多步双重注意力模型

PaperWeekly

4+阅读 · 2019年5月14日

新任务&数据集：视觉常识推理(VCR)

新任务&数据集：视觉常识推理(VCR)

专知

50+阅读 · 2018年12月1日

An Empirical Analysis of Visual Features for Multiple Object Tracking in Urban Scenes

Arxiv

0+阅读 · 2020年10月15日

Increasing Power for Observational Studies of Aberrant Response: An Adaptive Approach

Increasing Power for Observational Studies of Aberrant Response: An Adaptive Approach

Arxiv

0+阅读 · 2020年10月14日

DotSCN: Group Re-identification via Domain-Transferred Single and Couple Representation Learning

Arxiv

0+阅读 · 2020年10月13日

Incremental Processing in the Age of Non-Incremental Encoders: An Empirical Assessment of Bidirectional Models for Incremental NLU

Arxiv

0+阅读 · 2020年10月11日

Joint Transceiver and Large Intelligent Surface Design for Massive MIMO MmWave Systems

Arxiv

0+阅读 · 2020年10月11日

Learning to Propagate Labels: Transductive Propagation Network for Few-shot Learning

Arxiv

7+阅读 · 2019年2月8日

Ask No More: Deciding when to guess in referential visual dialogue

Arxiv

4+阅读 · 2018年6月12日

CoNet: Collaborative Cross Networks for Cross-Domain Recommendation

Arxiv

13+阅读 · 2018年4月20日

Attention Clusters: Purely Attention Based Local Feature Integration for Video Classification

Arxiv

4+阅读 · 2017年11月27日

Content based video retrieval

Arxiv

3+阅读 · 2012年11月20日

VIP会员

相关主题

相关VIP内容

【ACMMM2020】面向目标的视觉对话的应答驱动视觉状态估计器

【ACMMM2020】面向目标的视觉对话的应答驱动视觉状态估计器

专知会员服务

18+阅读 · 2020年10月11日

【ACMMM2020】条件推理的医学视觉问答

【ACMMM2020】条件推理的医学视觉问答

专知会员服务

39+阅读 · 2020年9月9日

【ACM MM2020】食品数据集ISIA Food-500：全局局部注意力网络

【ACM MM2020】食品数据集ISIA Food-500：全局局部注意力网络

专知会员服务

37+阅读 · 2020年9月6日

【ECCV2020】通过最小化逆动力学分歧来实现从观察中模仿学习

【ECCV2020】通过最小化逆动力学分歧来实现从观察中模仿学习

专知会员服务

15+阅读 · 2020年9月6日

【ACMMM2020】零样本语义分割的上下文感知特征生成

【ACMMM2020】零样本语义分割的上下文感知特征生成

专知会员服务

16+阅读 · 2020年8月21日

【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习

【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习

专知会员服务

28+阅读 · 2020年8月14日

【ACMMM2020-北航】协作双路径度量的小样本学习

【ACMMM2020-北航】协作双路径度量的小样本学习

专知会员服务

29+阅读 · 2020年8月11日

【KDD2020】多源深度域自适应的时序传感数据

【KDD2020】多源深度域自适应的时序传感数据

专知会员服务

62+阅读 · 2020年5月25日

近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码

近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码

专知会员服务

37+阅读 · 2020年1月10日

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

专知会员服务

29+阅读 · 2019年11月23日

热门VIP内容

开通专知VIP会员享更多权益服务

《军事远程操作中的自动语音识别与多模态交互技术》最新报告

《人工智能与预测性健康管理（PHM）技术在军事智能装备保障中的应用》

人工智能无人机：传统军事优势面临的新挑战

《定向能武器对无人机核心系统及体外细胞动力学影响的深度剖析》最新28页报告

相关资讯

【KDD2020】动态知识图谱的多事件预测

【KDD2020】动态知识图谱的多事件预测

专知

88+阅读 · 2020年8月31日

【KDD2020-阿里】可调控的多兴趣推荐框架

【KDD2020-阿里】可调控的多兴趣推荐框架

专知

9+阅读 · 2020年8月11日

【KDD2020-清华大学】属性图嵌入的自适应图编码器

【KDD2020-清华大学】属性图嵌入的自适应图编码器

专知

30+阅读 · 2020年7月8日

CVPR2020最新《小样本学习》综述教程，145页ppt带你学习最新FSL进展

CVPR2020最新《小样本学习》综述教程，145页ppt带你学习最新FSL进展

专知

40+阅读 · 2020年6月20日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

专知

12+阅读 · 2020年3月29日

【WWW2020论文-香港中文大学】MAGNN:异构图嵌入的集合图神经网络

【WWW2020论文-香港中文大学】MAGNN:异构图嵌入的集合图神经网络

专知

33+阅读 · 2020年2月13日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

19+阅读 · 2019年11月24日

微软论文解读：用于视觉对话的多步双重注意力模型

微软论文解读：用于视觉对话的多步双重注意力模型

PaperWeekly

4+阅读 · 2019年5月14日

新任务&数据集：视觉常识推理(VCR)

新任务&数据集：视觉常识推理(VCR)

专知

50+阅读 · 2018年12月1日

相关论文

An Empirical Analysis of Visual Features for Multiple Object Tracking in Urban Scenes

Arxiv

0+阅读 · 2020年10月15日

Increasing Power for Observational Studies of Aberrant Response: An Adaptive Approach

Increasing Power for Observational Studies of Aberrant Response: An Adaptive Approach

Arxiv

0+阅读 · 2020年10月14日

DotSCN: Group Re-identification via Domain-Transferred Single and Couple Representation Learning

Arxiv

0+阅读 · 2020年10月13日

Incremental Processing in the Age of Non-Incremental Encoders: An Empirical Assessment of Bidirectional Models for Incremental NLU

Arxiv

0+阅读 · 2020年10月11日

Joint Transceiver and Large Intelligent Surface Design for Massive MIMO MmWave Systems

Arxiv

0+阅读 · 2020年10月11日

Learning to Propagate Labels: Transductive Propagation Network for Few-shot Learning

Arxiv

7+阅读 · 2019年2月8日

Ask No More: Deciding when to guess in referential visual dialogue

Arxiv

4+阅读 · 2018年6月12日

CoNet: Collaborative Cross Networks for Cross-Domain Recommendation

Arxiv

13+阅读 · 2018年4月20日

Attention Clusters: Purely Attention Based Local Feature Integration for Video Classification

Arxiv

4+阅读 · 2017年11月27日

Content based video retrieval

Arxiv

3+阅读 · 2012年11月20日

大家都在搜

智库最新报告

生成式人工智能

软件无线电

无人机测控通信自组网技术综述

微信扫码咨询专知VIP会员