【ACMMM2020】面向目标的视觉对话的应答驱动视觉状态估计器 - 专知VIP

会员服务 ·

1

视觉对话 · ACM Multimedia 2020 ·

2020 年 10 月 11 日

【ACMMM2020】面向目标的视觉对话的应答驱动视觉状态估计器

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

面向目标的视觉对话包括两个代理者，提问者和Oracle之间的多回合交互。在此期间，Oracle给出的答案是非常重要的，因为它为提问者所关心的问题提供了黄金回答。在回答的基础上，提问者更新了对目标视觉内容的信念，进而提出了另一个问题。值得注意的是，不同的答案会导致不同的视觉信念和未来问题。但是，现有的方法往往是在问题长得多的情况下对答案进行不加区分的编码，导致对答案的利用率较低。在本文中，我们提出了一个答案驱动的视觉状态估计器(ADVSE)，以施加不同的答案对视觉状态的影响。首先，我们提出了一种基于回答驱动的聚焦注意力(ADFA)，通过在每个回合强化与问题相关的注意力并通过基于回答的逻辑操作来调整注意力，来捕捉对视觉注意力的回答驱动效应。然后在聚焦注意力的基础上，通过条件视觉信息融合(CVIF)对问题-应答状态进行融合，得到整体信息和差异信息的视觉状态估计。

成为VIP会员查看完整内容

18

相关内容

视觉对话

视觉对话主要任务为：AI代理与人类以自然的会话语言对视觉内容进行有意义的对话。具体而言，给定图像，对话历史和关于图像的问题，代理必须将问题置于图像中，从历史推断上下文，并准确的回答问题。视觉对话具有访问和理解的多轮对话历史，所以需要一个可以组合多个信息源的编码器。

【ACMMM2020】条件推理的医学视觉问答

【ACMMM2020】条件推理的医学视觉问答

专知会员服务

39+阅读 · 2020年9月9日

【ACM MM2020-计算所】基于多源语义嵌入的场景识别的广义零样本学习

【ACM MM2020-计算所】基于多源语义嵌入的场景识别的广义零样本学习

专知会员服务

22+阅读 · 2020年9月5日

【ACMMM2020】零样本语义分割的上下文感知特征生成

【ACMMM2020】零样本语义分割的上下文感知特征生成

专知会员服务

16+阅读 · 2020年8月21日

【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习

【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习

专知会员服务

28+阅读 · 2020年8月14日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知会员服务

22+阅读 · 2020年8月12日

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

专知会员服务

78+阅读 · 2020年2月25日

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

专知会员服务

38+阅读 · 2020年2月25日

【Svitlana博士论文以及答辩slides】基于知识的对话搜索（Knowledge-based Conversational Search），附145页pdf论文，55页ppt

【Svitlana博士论文以及答辩slides】基于知识的对话搜索（Knowledge-based Conversational Search），附145页pdf论文，55页ppt

专知会员服务

48+阅读 · 2019年11月25日

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

专知会员服务

29+阅读 · 2019年11月23日

【AAAI2020论文】多轮对话系统中的历史自适应知识融合机制, 中科院信工所孙雅静等

专知会员服务

60+阅读 · 2019年11月23日

【AAAI2020论文】多轮对话系统中的历史自适应知识融合机制, 中科院信工所孙雅静等

【AAAI2020论文】多轮对话系统中的历史自适应知识融合机制, 中科院信工所孙雅静等

专知

30+阅读 · 2019年11月24日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

19+阅读 · 2019年11月24日

微软论文解读：用于视觉对话的多步双重注意力模型

微软论文解读：用于视觉对话的多步双重注意力模型

PaperWeekly

4+阅读 · 2019年5月14日

ACM MM18 | 用于跨模态检索的综合距离保持自编码器

ACM MM18 | 用于跨模态检索的综合距离保持自编码器

PaperWeekly

5+阅读 · 2019年3月11日

【AGV】仓库内多AGV协作的全局路径规划算法的研究

【AGV】仓库内多AGV协作的全局路径规划算法的研究

产业智能官

27+阅读 · 2018年11月10日

一种轻量级在线多目标车辆跟踪方法

一种轻量级在线多目标车辆跟踪方法

极市平台

13+阅读 · 2018年8月18日

开往视觉对话研究的列车——2018年第一届视觉对话挑战赛

开往视觉对话研究的列车——2018年第一届视觉对话挑战赛

人工智能头条

4+阅读 · 2018年7月2日

论文浅尝 | 端到端神经视觉问答之上的显式推理

论文浅尝 | 端到端神经视觉问答之上的显式推理

开放知识图谱

7+阅读 · 2018年6月28日

【AAAI专题】中篇：BRAVE组系列研究进展之“视听模态的生成”

【AAAI专题】中篇：BRAVE组系列研究进展之“视听模态的生成”

中国科学院自动化研究所

4+阅读 · 2018年1月25日

【深度】GAN与平行视觉|王坤峰副研究员

【深度】GAN与平行视觉|王坤峰副研究员

中国科学院自动化研究所

8+阅读 · 2017年8月18日

Crowdsharing Wireless Energy Services

Arxiv

0+阅读 · 2020年11月25日

Reliability Model for Incentive-Driven IoT Energy Services

Arxiv

0+阅读 · 2020年11月25日

Zero-Shot Visual Slot Filling as Question Answering

Arxiv

0+阅读 · 2020年11月24日

NL4DV: A Toolkit for Generating Analytic Specifications for Data Visualization from Natural Language Queries

Arxiv

0+阅读 · 2020年11月23日

Advances in Online Audio-Visual Meeting Transcription

Advances in Online Audio-Visual Meeting Transcription

Arxiv

4+阅读 · 2019年12月10日

Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation

Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation

Arxiv

25+阅读 · 2019年10月30日

Think Visually: Question Answering through Virtual Imagery

Arxiv

3+阅读 · 2018年5月25日

Object Tracking in Satellite Videos Based on a Multi-Frame Optical Flow Tracker

Arxiv

5+阅读 · 2018年4月25日

The Web as a Knowledge-base for Answering Complex Questions

Arxiv

5+阅读 · 2018年3月18日

iVQA: Inverse Visual Question Answering

Arxiv

5+阅读 · 2018年3月16日

VIP会员

相关主题

ACM Multimedia 2020

相关VIP内容

【ACMMM2020】条件推理的医学视觉问答

【ACMMM2020】条件推理的医学视觉问答

专知会员服务

39+阅读 · 2020年9月9日

【ACM MM2020-计算所】基于多源语义嵌入的场景识别的广义零样本学习

【ACM MM2020-计算所】基于多源语义嵌入的场景识别的广义零样本学习

专知会员服务

22+阅读 · 2020年9月5日

【ACMMM2020】零样本语义分割的上下文感知特征生成

【ACMMM2020】零样本语义分割的上下文感知特征生成

专知会员服务

16+阅读 · 2020年8月21日

【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习

【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习

专知会员服务

28+阅读 · 2020年8月14日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知会员服务

22+阅读 · 2020年8月12日

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

专知会员服务

78+阅读 · 2020年2月25日

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

【CVPR2020-加州理工大学Devi Parikh】多任务视觉和语言表示学习

专知会员服务

38+阅读 · 2020年2月25日

【Svitlana博士论文以及答辩slides】基于知识的对话搜索（Knowledge-based Conversational Search），附145页pdf论文，55页ppt

【Svitlana博士论文以及答辩slides】基于知识的对话搜索（Knowledge-based Conversational Search），附145页pdf论文，55页ppt

专知会员服务

48+阅读 · 2019年11月25日

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

专知会员服务

29+阅读 · 2019年11月23日

【AAAI2020论文】多轮对话系统中的历史自适应知识融合机制, 中科院信工所孙雅静等

专知会员服务

60+阅读 · 2019年11月23日

热门VIP内容

开通专知VIP会员享更多权益服务

【牛津博士论文】零样本强化学习综述

《美军条令：陆军指挥官与规划人员地理空间指南》60页

战术边缘指挥控制：防务面临的核心挑战

迈向开放世界检测：综述

相关资讯

【AAAI2020论文】多轮对话系统中的历史自适应知识融合机制, 中科院信工所孙雅静等

【AAAI2020论文】多轮对话系统中的历史自适应知识融合机制, 中科院信工所孙雅静等

专知

30+阅读 · 2019年11月24日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

19+阅读 · 2019年11月24日

微软论文解读：用于视觉对话的多步双重注意力模型

微软论文解读：用于视觉对话的多步双重注意力模型

PaperWeekly

4+阅读 · 2019年5月14日

ACM MM18 | 用于跨模态检索的综合距离保持自编码器

ACM MM18 | 用于跨模态检索的综合距离保持自编码器

PaperWeekly

5+阅读 · 2019年3月11日

【AGV】仓库内多AGV协作的全局路径规划算法的研究

【AGV】仓库内多AGV协作的全局路径规划算法的研究

产业智能官

27+阅读 · 2018年11月10日

一种轻量级在线多目标车辆跟踪方法

一种轻量级在线多目标车辆跟踪方法

极市平台

13+阅读 · 2018年8月18日

开往视觉对话研究的列车——2018年第一届视觉对话挑战赛

开往视觉对话研究的列车——2018年第一届视觉对话挑战赛

人工智能头条

4+阅读 · 2018年7月2日

论文浅尝 | 端到端神经视觉问答之上的显式推理

论文浅尝 | 端到端神经视觉问答之上的显式推理

开放知识图谱

7+阅读 · 2018年6月28日

【AAAI专题】中篇：BRAVE组系列研究进展之“视听模态的生成”

【AAAI专题】中篇：BRAVE组系列研究进展之“视听模态的生成”

中国科学院自动化研究所

4+阅读 · 2018年1月25日

【深度】GAN与平行视觉|王坤峰副研究员

【深度】GAN与平行视觉|王坤峰副研究员

中国科学院自动化研究所

8+阅读 · 2017年8月18日

相关论文

Crowdsharing Wireless Energy Services

Arxiv

0+阅读 · 2020年11月25日

Reliability Model for Incentive-Driven IoT Energy Services

Arxiv

0+阅读 · 2020年11月25日

Zero-Shot Visual Slot Filling as Question Answering

Arxiv

0+阅读 · 2020年11月24日

NL4DV: A Toolkit for Generating Analytic Specifications for Data Visualization from Natural Language Queries

Arxiv

0+阅读 · 2020年11月23日

Advances in Online Audio-Visual Meeting Transcription

Advances in Online Audio-Visual Meeting Transcription

Arxiv

4+阅读 · 2019年12月10日

Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation

Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation

Arxiv

25+阅读 · 2019年10月30日

Think Visually: Question Answering through Virtual Imagery

Arxiv

3+阅读 · 2018年5月25日

Object Tracking in Satellite Videos Based on a Multi-Frame Optical Flow Tracker

Arxiv

5+阅读 · 2018年4月25日

The Web as a Knowledge-base for Answering Complex Questions

Arxiv

5+阅读 · 2018年3月18日

iVQA: Inverse Visual Question Answering

Arxiv

5+阅读 · 2018年3月16日

微信扫码咨询专知VIP会员