面向目标的视觉对话包括两个代理者,提问者和Oracle之间的多回合交互。在此期间,Oracle给出的答案是非常重要的,因为它为提问者所关心的问题提供了黄金回答。在回答的基础上,提问者更新了对目标视觉内容的信念,进而提出了另一个问题。值得注意的是,不同的答案会导致不同的视觉信念和未来问题。但是,现有的方法往往是在问题长得多的情况下对答案进行不加区分的编码,导致对答案的利用率较低。在本文中,我们提出了一个答案驱动的视觉状态估计器(ADVSE),以施加不同的答案对视觉状态的影响。首先,我们提出了一种基于回答驱动的聚焦注意力(ADFA),通过在每个回合强化与问题相关的注意力并通过基于回答的逻辑操作来调整注意力,来捕捉对视觉注意力的回答驱动效应。然后在聚焦注意力的基础上,通过条件视觉信息融合(CVIF)对问题-应答状态进行融合,得到整体信息和差异信息的视觉状态估计。

成为VIP会员查看完整内容
0
12

相关内容

视觉对话主要任务为:AI代理与人类以自然的会话语言对视觉内容进行有意义的对话。具体而言,给定图像,对话历史和关于图像的问题,代理必须将问题置于图像中,从历史推断上下文,并准确的回答问题。视觉对话具有访问和理解的多轮对话历史,所以需要一个可以组合多个信息源的编码器。

医学视觉问答(Medical visual question answer, Med-VQA)的目的是准确回答医学图像所呈现的临床问题。尽管该技术在医疗保健行业和服务领域有着巨大的潜力,但它仍处于起步阶段,远未得到实际应用。由于临床问题的多样性以及不同类型问题所需的视觉推理技能的差异,Med-VQA任务具有很高的挑战性。本文提出了一种新的Med-VQA的条件推理框架,旨在自动学习各种Med-VQA任务的有效推理技巧。特别地,我们开发了一个问题条件推理模块来指导多模态融合特征的重要性选择。针对封闭式和开放式的Med-VQA任务的不同性质,我们进一步提出了一种类型条件推理模块,分别针对两种类型的任务学习不同的推理技能。我们的条件推理框架可以很容易地应用到现有的Med-VQA系统中,从而提高性能。在实验中,我们在最近最先进的Med-VQA模型上建立我们的系统,并在VQA-RAD基准[23]上评估它。值得注意的是,我们的系统在预测封闭式和开放式问题的答案方面都取得了显著的提高,特别是对于开放式问题,其绝对准确率提高了10.8%。源代码可以从https://github.com/awenbocc/med-vqa下载。

http://www4.comp.polyu.edu.hk/~csxmwu/papers/MM-2020-Med-VQA.pdf

成为VIP会员查看完整内容
0
18

从语义描述中识别视觉类别是一种很有前途的方法,它可以扩展视觉分类器的能力,使其超越训练数据中所表示的概念(即看到的类别)。这个问题是由(广义的)零样本学习方法(GZSL)解决的,它利用语义描述将它们连接到所看到的类别(例如,标签嵌入,属性)。传统的GZSL主要是为了目标识别而设计的。在本文中,我们关注于零样本场景识别,这是一个更具挑战性的设置,有数百个类别,它们的差异可能是微妙的,通常在特定的物体或区域。传统的GZSL表示不够丰富,无法捕获这些局部差别。针对这些限制,我们提出了一个具有两个新组件的特征生成框架:1)多源语义信息(即属性、单词嵌入和描述),2)可以增强场景识别的区域描述。为了生成综合的视觉特征,我们提出了两步生成方法,其中局部描述采样和使用作为条件来生成视觉特征。生成的特征被聚合并与真实的特征一起用来训练一个联合分类器。为了对该方法进行评价,我们引入了一种新的具有多语义标注的零样本场景识别数据集。在该数据集和SUN属性数据集上的实验结果表明了该方法的有效性。

https://vipl.ict.ac.cn/homepage/jsq/publication/2020-Song-ACMMM.html

成为VIP会员查看完整内容
0
15

在观看视频时,视觉事件的发生往往伴随着声音事件,如唇动的声音,乐器演奏的音乐。视听事件之间存在着一种潜在的相关性,通过解决视听同步的代理任务,可以将其作为自监督信息来训练神经网络。在本文中,我们提出了一种新的带有共同注意力机制的自监督框架来学习无标记视频中的通用跨模态表示,并进一步使下游任务受益。具体而言,我们探讨了三个不同的共注意模块,以关注与声音相关的区分视觉区域,并介绍它们之间的相互作用。实验表明,与现有方法相比,我们的模型在参数较少的情况下,取得了较好的效果。为了进一步评估我们方法的可推广性和可迁移性,我们将预训练的模型应用于两个下游任务,即声源定位和动作识别。大量的实验表明,我们的模型可以提供与其他自监督方法竞争的结果,也表明我们的方法可以处理具有挑战性的场景包含多个声源。

https://arxiv.org/abs/2008.05789

成为VIP会员查看完整内容
0
18

视觉对话是一项具有挑战性的任务,它需要从视觉(图像)和文本(对话历史)上下文中提取隐含信息。经典的方法更多地关注当前问题、视觉知识和文本知识的整合,忽略了跨模态信息之间的异构语义鸿沟。同时,连接操作已成为跨模式信息融合的事实标准,其信息检索能力有限。本文提出了一种新的知识桥接图网络模型,利用图在细粒度上桥接视觉知识和文本知识之间的跨模式语义关系,并通过自适应的信息选择模式检索所需的知识。此外,视觉对话的推理线索可以清晰地从模态内实体和模态间桥梁中提取出来。VisDial v1.0和VisDial- q数据集上的实验结果表明,我们的模型优于现有的模型,取得了最新的结果。

https://www.zhuanzhi.ai/paper/6a3e359d8827752a98f2e5daa7079d2a

成为VIP会员查看完整内容
0
13

题目: Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

摘要: 细粒度动作识别数据集表现出环境偏差,其中多个视频序列是从有限数量的环境中捕获的。在一个环境中训练一个模型,然后部署到另一个环境中,由于不可避免的领域转换,会导致性能下降。无监督域适应(UDA)方法经常用于源域和目标域之间的对抗训练。然而,这些方法并没有探索视频在每个领域的多模态性质。在这个工作我们利用模式的通信作为UDA self-supervised对齐的方法除了敌对的对齐(图1),我们测试我们的方法在三个厨房从大规模的数据集,EPIC-Kitchens,使用两种方法通常用于行为识别:RGB和光学流。结果表明,多模态的自监督比单纯的训练平均提高了2.4%。然后我们将对抗训练与多模态自我监督相结合,结果表明我们的方法比其他的UDA方法高3%。

成为VIP会员查看完整内容
0
51

论文题目: Knowledge-based Conversational Search

摘要:

允许对数字存储信息进行直观和全面访问的对话接口仍然是一个目标。在这篇论文中,分析了对话搜索系统的需求,并提出了一些具体的解决方案来自动化这些系统应该支持的基本组件和任务,从而为对话搜索系统的设计奠定了基础。我们描述了几个相互依赖的研究,这些研究分析了更高级的对话搜索系统的设计需求,该系统能够支持复杂的类人对话交互,并提供对巨大知识库的访问。在前两章的研究中,重点分析了信息搜索对话中常见的结构,从领域独立的话语功能关系和领域特定的隐含语义关系两方面分析了重复模式。结果显示,问题回答是特定信息访问的关键组成部分之一,但它不是会话搜索系统应该支持的对话交互的唯一类型。在第三章的研究中,提出了一种新颖的方法来解决复杂的问题。在最后的研究章节中,将注意力转向了另一种交互模式,称之为对话浏览,在这种模式中,会话系统与问题回答不同,在对话交互过程中起着更积极的作用。结果表明,由于词汇量不匹配问题,该方法可以帮助用户发现仅使用问题回答无法检索的相关条目。

论文作者:

Svitlana Vakulenko是阿姆斯特丹大学博士,研究范围是自然语言处理、对话系统、问答、对话搜索。

论文下载链接: https://svakulenk0.github.io/pdfs/Conversational_Search_in_Structure__PhD_Thesis_Vakulenko_.pdf

ppt下载链接: https://svakulenk0.github.io/pdfs/slides/defence_final.pdf

成为VIP会员查看完整内容
0
30

题目:DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue

摘要: 近年来,结合视觉和语言的跨媒体人工智能技术取得了很大进展。其中,视觉对话任务要求模型同时具备推理、定位、语言表述等能力,对跨媒体智能提出了更大挑战。本文介绍了中科院信工所于静等的论文《DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue》(AAAI 2020),该文针对视觉对话中涉及的图像内容范围广、多视角理解困难的问题,提出一种用于刻画图像视觉和语义信息的自适应双向编码模型——DualVD,从视觉目标、视觉关系、高层语义等多层面信息中自适应捕获回答问题的依据,同时通过可视化结果揭示不同信息源对于回答问题的贡献,具有较强的可解释性。该论文是和阿德莱德大学、北京航空航天大学、微软亚洲研究院共同完成。

代码链接:https://github.com/JXZe/DualVD

成为VIP会员查看完整内容
0
17
小贴士
相关VIP内容
专知会员服务
18+阅读 · 2020年9月9日
专知会员服务
8+阅读 · 2020年8月21日
相关论文
Abdallah Lakhdari,Amani Abusafia,Athman Bouguettaya
0+阅读 · 2020年11月25日
Amani Abusafia,Athman Bouguettaya
0+阅读 · 2020年11月25日
Larry Heck,Simon Heck
0+阅读 · 2020年11月24日
Arpit Narechania,Arjun Srinivasan,John Stasko
0+阅读 · 2020年11月23日
Advances in Online Audio-Visual Meeting Transcription
Takuya Yoshioka,Igor Abramovski,Cem Aksoylar,Zhuo Chen,Moshe David,Dimitrios Dimitriadis,Yifan Gong,Ilya Gurvich,Xuedong Huang,Yan Huang,Aviv Hurvitz,Li Jiang,Sharon Koubi,Eyal Krupka,Ido Leichter,Changliang Liu,Partha Parthasarathy,Alon Vinnikov,Lingfeng Wu,Xiong Xiao,Wayne Xiong,Huaming Wang,Zhenghao Wang,Jun Zhang,Yong Zhao,Tianyan Zhou
4+阅读 · 2019年12月10日
Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation
Risto Vuorio,Shao-Hua Sun,Hexiang Hu,Joseph J. Lim
20+阅读 · 2019年10月30日
Ankit Goyal,Jian Wang,Jia Deng
3+阅读 · 2018年5月25日
Bo Du,Shihan Cai,Chen Wu,Liangpei Zhang,Dacheng Tao
5+阅读 · 2018年4月25日
Alon Talmor,Jonathan Berant
5+阅读 · 2018年3月18日
Feng Liu,Tao Xiang,Timothy M. Hospedales,Wankou Yang,Changyin Sun
5+阅读 · 2018年3月16日
Top