【ACMMM2020】面向目标的视觉对话的应答驱动视觉状态估计器 - 专知

会员服务 ·

0

【ACMMM2020】面向目标的视觉对话的应答驱动视觉状态估计器

2020 年 10 月 12 日 专知

面向目标的视觉对话包括两个代理者，提问者和Oracle之间的多回合交互。在此期间，Oracle给出的答案是非常重要的，因为它为提问者所关心的问题提供了黄金回答。在回答的基础上，提问者更新了对目标视觉内容的信念，进而提出了另一个问题。值得注意的是，不同的答案会导致不同的视觉信念和未来问题。但是，现有的方法往往是在问题长得多的情况下对答案进行不加区分的编码，导致对答案的利用率较低。在本文中，我们提出了一个答案驱动的视觉状态估计器(ADVSE)，以施加不同的答案对视觉状态的影响。首先，我们提出了一种基于回答驱动的聚焦注意力(ADFA)，通过在每个回合强化与问题相关的注意力并通过基于回答的逻辑操作来调整注意力，来捕捉对视觉注意力的回答驱动效应。然后在聚焦注意力的基础上，通过条件视觉信息融合(CVIF)对问题-应答状态进行融合，得到整体信息和差异信息的视觉状态估计。

https://www.zhuanzhi.ai/paper/b5a7d7470b5a493f6ee7f6d38bfc16c2

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“ADVSE” 可以获取《【ACMMM2020】面向目标的视觉对话的应答驱动视觉状态估计器》专知下载链接索引

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

1

相关内容

视觉对话

视觉对话主要任务为：AI代理与人类以自然的会话语言对视觉内容进行有意义的对话。具体而言，给定图像，对话历史和关于图像的问题，代理必须将问题置于图像中，从历史推断上下文，并准确的回答问题。视觉对话具有访问和理解的多轮对话历史，所以需要一个可以组合多个信息源的编码器。

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

专知会员服务

15+阅读 · 2020年10月27日

【ACMMM2020】小规模行人检测的自模拟学习

【ACMMM2020】小规模行人检测的自模拟学习

专知会员服务

15+阅读 · 2020年9月25日

【ACM MM2020】跨模态分布匹配的半监督多模态情感识别

【ACM MM2020】跨模态分布匹配的半监督多模态情感识别

专知会员服务

43+阅读 · 2020年9月8日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知会员服务

23+阅读 · 2020年8月12日

【ACMMM2020-北航】协作双路径度量的小样本学习

【ACMMM2020-北航】协作双路径度量的小样本学习

专知会员服务

29+阅读 · 2020年8月11日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知

10+阅读 · 2020年8月12日

面向大数据领域的事理认知图谱构建与推断分析

面向大数据领域的事理认知图谱构建与推断分析

专知

21+阅读 · 2020年8月11日

【快讯】CCF-A ACM ACM Multimedia 2020论文出炉，1361篇上榜，你的paper中了吗？

【快讯】CCF-A ACM ACM Multimedia 2020论文出炉，1361篇上榜，你的paper中了吗？

专知

12+阅读 · 2020年7月26日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

多模态多任务学习新论文

多模态多任务学习新论文

专知

46+阅读 · 2019年2月9日

Inverse Visual Question Answering with Multi-Level Attentions

Arxiv

2+阅读 · 2020年12月3日

Probabilistic Timed Automata with One Clock and Initialised Clock-Dependent Probabilities

Arxiv

0+阅读 · 2020年12月1日

Cyber-Physical Security Through Resiliency: A Systems-centric Approach

Arxiv

0+阅读 · 2020年11月29日

Sequential Attacks on Agents for Long-Term Adversarial Goals

Sequential Attacks on Agents for Long-Term Adversarial Goals

Arxiv

5+阅读 · 2018年7月5日

On Singleton Arc Consistency for CSPs Defined by Monotone Patterns

Arxiv

3+阅读 · 2017年12月22日

VIP会员

相关主题

视觉注意力

相关VIP内容

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

专知会员服务

15+阅读 · 2020年10月27日

【ACMMM2020】小规模行人检测的自模拟学习

【ACMMM2020】小规模行人检测的自模拟学习

专知会员服务

15+阅读 · 2020年9月25日

【ACM MM2020】跨模态分布匹配的半监督多模态情感识别

【ACM MM2020】跨模态分布匹配的半监督多模态情感识别

专知会员服务

43+阅读 · 2020年9月8日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知会员服务

23+阅读 · 2020年8月12日

【ACMMM2020-北航】协作双路径度量的小样本学习

【ACMMM2020-北航】协作双路径度量的小样本学习

专知会员服务

29+阅读 · 2020年8月11日

热门VIP内容

开通专知VIP会员享更多权益服务

从代码基础模型到智能体与应用：代码智能的全面综述与实践指南

《北约认知战概念报告》

【MIT博士论文】高效的视觉合成生成模型

美海军放弃星座级转而采用国家安全巡逻舰设计

相关资讯

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知

10+阅读 · 2020年8月12日

面向大数据领域的事理认知图谱构建与推断分析

面向大数据领域的事理认知图谱构建与推断分析

专知

21+阅读 · 2020年8月11日

【快讯】CCF-A ACM ACM Multimedia 2020论文出炉，1361篇上榜，你的paper中了吗？

【快讯】CCF-A ACM ACM Multimedia 2020论文出炉，1361篇上榜，你的paper中了吗？

专知

12+阅读 · 2020年7月26日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

多模态多任务学习新论文

多模态多任务学习新论文

专知

46+阅读 · 2019年2月9日

相关论文

Inverse Visual Question Answering with Multi-Level Attentions

Arxiv

2+阅读 · 2020年12月3日

Probabilistic Timed Automata with One Clock and Initialised Clock-Dependent Probabilities

Arxiv

0+阅读 · 2020年12月1日

Cyber-Physical Security Through Resiliency: A Systems-centric Approach

Arxiv

0+阅读 · 2020年11月29日

Sequential Attacks on Agents for Long-Term Adversarial Goals

Sequential Attacks on Agents for Long-Term Adversarial Goals

Arxiv

5+阅读 · 2018年7月5日

On Singleton Arc Consistency for CSPs Defined by Monotone Patterns

Arxiv

3+阅读 · 2017年12月22日

大家都在搜

朱克爱德华兹家族

大型语言模型

MIT博士论文

蓝牙安全攻防

冷启动，0预算，如何借助分销裂变引爆私域用户增长？

微信扫码咨询专知VIP会员