论文浅尝 | Wordly Wise(WoW) - 用于语音视觉知识问答的跨语言知识融合模型 - 专知

会员服务 ·

0

论文浅尝 | Wordly Wise(WoW) - 用于语音视觉知识问答的跨语言知识融合模型

2021 年 11 月 27 日 开放知识图谱

笔记整理: 谭亦鸣，东南大学博士生

来源：NAACL’21

链接：https://aclanthology.org/2021.naacl-main.153.pdf

论文提出了一种新的知识图谱问答数据集命名为FVSQA，这是一种语音视觉知识问答类型的任务，即问题形式为音频，问题基于一个图片提出，答案是来自知识图谱的事实。FVSQA包含三个子任务：

1.基于语音转文本的问答；2.（不转文本情况下的）端到端模型；3.跨语言任务，即问题的音频语言与知识图谱语言不同情况下的问答。

背景与动机

基于事实的视觉问答（FVQA）要求问答系统依据针对图像提出的问题，从给定的知识图谱中找到对应的事实答案。该任务旨在使模型模仿人类回答视觉问题时如何利用背景知识。但是作者认为现有的问答任务未考虑到（多语言）音频接口的情况，考虑到目前逐渐成熟的语音识别系统，直接使用语音提问，构建一个直接使用语音信号的端到端问答模型是指的考虑的研究方向。

贡献

作者总结论文的主要贡献如下：

1.论文提出了一个新的基于事实的视觉音频问答任务，并建立了一个数据集FVSQA包含5小时长度的语音数据，覆盖英语，印地语以及土耳其语。2.作者训练了一个直接使用语音信号的端到端问答模型WoW，这是第一个不需要语音识别解析模块的语音知识图谱问答模型

方法

论文的方法的整体过程如图所示，首先问题和场景检测器是被图像中的实体构成，然后图像被表示为检测到的实体的KG embedding特征集合，语音问题的MFCC特征由LSTM编码并传递到co-attention层，与图像编码进行融合，经过一个全连接层后，到达查询层，最后与查询最接近的实体被获取作为问题的答案

co-attention层的结构如下图：

这个部分的目的是融合语音问题表示以及图像表示，首先由自注意力提供一个单独的语音信号的问题embedding，然后问题embedding引导视觉attention的权重（就像文本embedding做的那样）。

FVSQA数据集的统计信息如下表

多语言数据借助了亚马逊翻译API完成，然后由人工校验，以确保问题的正确性。

实验

WoW模型的参数数量如表2所示最终的实验结果如下表：

OpenKG

OpenKG（中文开放知识图谱）旨在推动以中文为核心的知识图谱数据的开放、互联及众包，并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文，进入 OpenKG 网站。

登录查看更多

0

相关内容

知识融合

知识融合，即合并两个知识图谱(本体)，基本的问题都是研究怎样将来自多个来源的关于同一个实体或概念的描述信息融合起来。

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【博士论文】视觉语言交互中的视觉推理研究

【博士论文】视觉语言交互中的视觉推理研究

专知会员服务

64+阅读 · 2021年12月1日

【NeurIPS2021】自我挖掘：视频问答中对样本进行孪生采样和推理

【NeurIPS2021】自我挖掘：视频问答中对样本进行孪生采样和推理

专知会员服务

5+阅读 · 2021年11月23日

基于视觉和语言的跨媒体问答与推理研究综述

专知会员服务

32+阅读 · 2021年3月17日

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

专知会员服务

26+阅读 · 2021年1月29日

【AAAI2021】通过知识到文本转换来测试知识增强的常识性问题回答

【AAAI2021】通过知识到文本转换来测试知识增强的常识性问题回答

专知会员服务

29+阅读 · 2021年1月17日

【KDD 2020】基于互信息最大化的多知识图谱语义融合

【KDD 2020】基于互信息最大化的多知识图谱语义融合

专知会员服务

43+阅读 · 2020年9月7日

【CMU】基于图神经网络的联合检测与多目标跟踪

【CMU】基于图神经网络的联合检测与多目标跟踪

专知会员服务

59+阅读 · 2020年6月24日

知识图谱更新技术研究及其应用，复旦大学硕士论文

知识图谱更新技术研究及其应用，复旦大学硕士论文

专知会员服务

105+阅读 · 2019年11月4日

【CMU博士论文2019】建立知识感知的自然语言理解系统，附118页论文全文下载

【CMU博士论文2019】建立知识感知的自然语言理解系统，附118页论文全文下载

专知会员服务

52+阅读 · 2019年10月27日

AAAI2022 预训练中的多模态信息融合与表征探究

AAAI2022 预训练中的多模态信息融合与表征探究

RUC AI Box

3+阅读 · 2022年3月15日

论文浅尝 | 改善多语言KGQA的 Zero-shot 跨语言转换

论文浅尝 | 改善多语言KGQA的 Zero-shot 跨语言转换

开放知识图谱

0+阅读 · 2022年2月26日

论文浅尝 | 基于多模态特征的视觉实体链接

论文浅尝 | 基于多模态特征的视觉实体链接

开放知识图谱

1+阅读 · 2022年1月7日

论文浅尝 | 面向视觉常识推理的层次语义增强方向图网络

论文浅尝 | 面向视觉常识推理的层次语义增强方向图网络

开放知识图谱

0+阅读 · 2021年12月11日

论文浅尝 | XQA：一个跨语言开放域问答数据集

论文浅尝 | XQA：一个跨语言开放域问答数据集

开放知识图谱

26+阅读 · 2019年9月11日

论文浅尝 | 采用多层注意力机制的事件检测

论文浅尝 | 采用多层注意力机制的事件检测

开放知识图谱

24+阅读 · 2019年8月24日

论文浅尝 | 通过文本到文本神经问题生成的机器理解

论文浅尝 | 通过文本到文本神经问题生成的机器理解

开放知识图谱

10+阅读 · 2019年6月30日

论文浅尝 | 一种用于多关系问答的可解释推理网络

论文浅尝 | 一种用于多关系问答的可解释推理网络

开放知识图谱

18+阅读 · 2019年5月21日

论文浅尝 | 使用变分推理做KBQA

论文浅尝 | 使用变分推理做KBQA

开放知识图谱

13+阅读 · 2018年4月15日

论文浅尝 | Improved Neural Relation Detection for KBQA

论文浅尝 | Improved Neural Relation Detection for KBQA

开放知识图谱

13+阅读 · 2018年1月21日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

融合言语产生系统发音信息和中层鉴别性表征的说话人识别与语种识别

国家自然科学基金

1+阅读 · 2013年12月31日

基于多任务概率视觉语义模型的图像场景理解

国家自然科学基金

2+阅读 · 2013年12月31日

非母语汉语学习过程中语音生成与习得研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向非平行文本的说话人个性特征转换的关键技术及应用研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于情感上下文的视觉语音多模态协同情感分析方法研究

国家自然科学基金

4+阅读 · 2012年12月31日

基于DBN协同建模的中文及跨语种语音结构事件检测研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于多目视觉的形体语言感知与识别研究

国家自然科学基金

2+阅读 · 2011年12月31日

语音生成的计算建模及在言语障碍康复中的应用

国家自然科学基金

0+阅读 · 2011年12月31日

句子语义的视觉表示研究

国家自然科学基金

4+阅读 · 2009年12月31日

Mention Memory: incorporating textual knowledge into Transformers through entity mention attention

Arxiv

0+阅读 · 2022年4月19日

An Energy-Based Prior for Generative Saliency

Arxiv

0+阅读 · 2022年4月19日

BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures Synthesis

Arxiv

0+阅读 · 2022年4月19日

Coarse-to-Fine Reasoning for Visual Question Answering

Arxiv

0+阅读 · 2022年4月19日

Good, Better, Best: Textual Distractors Generation for Multiple-Choice Visual Question Answering via Reinforcement Learning

Arxiv

0+阅读 · 2022年4月18日

Towards Fine-grained Causal Reasoning and QA

Towards Fine-grained Causal Reasoning and QA

Arxiv

0+阅读 · 2022年4月15日

QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question Answering

Arxiv

20+阅读 · 2021年5月27日

Commonsense Knowledge Base Completion with Structural and Semantic Context

Commonsense Knowledge Base Completion with Structural and Semantic Context

Arxiv

20+阅读 · 2019年12月19日

KGAT: Knowledge Graph Attention Network for Recommendation

Arxiv

40+阅读 · 2019年5月20日

One for All: Neural Joint Modeling of Entities and Events

Arxiv

11+阅读 · 2018年12月1日

VIP会员

相关主题

知识图谱问答

相关VIP内容

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【博士论文】视觉语言交互中的视觉推理研究

【博士论文】视觉语言交互中的视觉推理研究

专知会员服务

64+阅读 · 2021年12月1日

【NeurIPS2021】自我挖掘：视频问答中对样本进行孪生采样和推理

【NeurIPS2021】自我挖掘：视频问答中对样本进行孪生采样和推理

专知会员服务

5+阅读 · 2021年11月23日

基于视觉和语言的跨媒体问答与推理研究综述

专知会员服务

32+阅读 · 2021年3月17日

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

【AAAI2021】知识增强的视觉-语言预训练技术 ERNIE-ViL

专知会员服务

26+阅读 · 2021年1月29日

【AAAI2021】通过知识到文本转换来测试知识增强的常识性问题回答

【AAAI2021】通过知识到文本转换来测试知识增强的常识性问题回答

专知会员服务

29+阅读 · 2021年1月17日

【KDD 2020】基于互信息最大化的多知识图谱语义融合

【KDD 2020】基于互信息最大化的多知识图谱语义融合

专知会员服务

43+阅读 · 2020年9月7日

【CMU】基于图神经网络的联合检测与多目标跟踪

【CMU】基于图神经网络的联合检测与多目标跟踪

专知会员服务

59+阅读 · 2020年6月24日

知识图谱更新技术研究及其应用，复旦大学硕士论文

知识图谱更新技术研究及其应用，复旦大学硕士论文

专知会员服务

105+阅读 · 2019年11月4日

【CMU博士论文2019】建立知识感知的自然语言理解系统，附118页论文全文下载

【CMU博士论文2019】建立知识感知的自然语言理解系统，附118页论文全文下载

专知会员服务

52+阅读 · 2019年10月27日

热门VIP内容

开通专知VIP会员享更多权益服务

新型数字杀伤链：理解综合战术网络对野战炮兵体系的能力与效益

《对抗环境中运用数字孪生技术优化预测性维护与后勤保障》2025最新93页

《任务式指挥十六个案例研究》232页

《幻觉还是事实：国防大型语言模型的可信度评估研究》2025最新109页

相关资讯

AAAI2022 预训练中的多模态信息融合与表征探究

AAAI2022 预训练中的多模态信息融合与表征探究

RUC AI Box

3+阅读 · 2022年3月15日

论文浅尝 | 改善多语言KGQA的 Zero-shot 跨语言转换

论文浅尝 | 改善多语言KGQA的 Zero-shot 跨语言转换

开放知识图谱

0+阅读 · 2022年2月26日

论文浅尝 | 基于多模态特征的视觉实体链接

论文浅尝 | 基于多模态特征的视觉实体链接

开放知识图谱

1+阅读 · 2022年1月7日

论文浅尝 | 面向视觉常识推理的层次语义增强方向图网络

论文浅尝 | 面向视觉常识推理的层次语义增强方向图网络

开放知识图谱

0+阅读 · 2021年12月11日

论文浅尝 | XQA：一个跨语言开放域问答数据集

论文浅尝 | XQA：一个跨语言开放域问答数据集

开放知识图谱

26+阅读 · 2019年9月11日

论文浅尝 | 采用多层注意力机制的事件检测

论文浅尝 | 采用多层注意力机制的事件检测

开放知识图谱

24+阅读 · 2019年8月24日

论文浅尝 | 通过文本到文本神经问题生成的机器理解

论文浅尝 | 通过文本到文本神经问题生成的机器理解

开放知识图谱

10+阅读 · 2019年6月30日

论文浅尝 | 一种用于多关系问答的可解释推理网络

论文浅尝 | 一种用于多关系问答的可解释推理网络

开放知识图谱

18+阅读 · 2019年5月21日

论文浅尝 | 使用变分推理做KBQA

论文浅尝 | 使用变分推理做KBQA

开放知识图谱

13+阅读 · 2018年4月15日

论文浅尝 | Improved Neural Relation Detection for KBQA

论文浅尝 | Improved Neural Relation Detection for KBQA

开放知识图谱

13+阅读 · 2018年1月21日

相关基金

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

融合言语产生系统发音信息和中层鉴别性表征的说话人识别与语种识别

国家自然科学基金

1+阅读 · 2013年12月31日

基于多任务概率视觉语义模型的图像场景理解

国家自然科学基金

2+阅读 · 2013年12月31日

非母语汉语学习过程中语音生成与习得研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向非平行文本的说话人个性特征转换的关键技术及应用研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于情感上下文的视觉语音多模态协同情感分析方法研究

国家自然科学基金

4+阅读 · 2012年12月31日

基于DBN协同建模的中文及跨语种语音结构事件检测研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于多目视觉的形体语言感知与识别研究

国家自然科学基金

2+阅读 · 2011年12月31日

语音生成的计算建模及在言语障碍康复中的应用

国家自然科学基金

0+阅读 · 2011年12月31日

句子语义的视觉表示研究

国家自然科学基金

4+阅读 · 2009年12月31日

相关论文

Mention Memory: incorporating textual knowledge into Transformers through entity mention attention

Arxiv

0+阅读 · 2022年4月19日

An Energy-Based Prior for Generative Saliency

Arxiv

0+阅读 · 2022年4月19日

BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for Conversational Gestures Synthesis

Arxiv

0+阅读 · 2022年4月19日

Coarse-to-Fine Reasoning for Visual Question Answering

Arxiv

0+阅读 · 2022年4月19日

Good, Better, Best: Textual Distractors Generation for Multiple-Choice Visual Question Answering via Reinforcement Learning

Arxiv

0+阅读 · 2022年4月18日

Towards Fine-grained Causal Reasoning and QA

Towards Fine-grained Causal Reasoning and QA

Arxiv

0+阅读 · 2022年4月15日

QA-GNN: Reasoning with Language Models and Knowledge Graphs for Question Answering

Arxiv

20+阅读 · 2021年5月27日

Commonsense Knowledge Base Completion with Structural and Semantic Context

Commonsense Knowledge Base Completion with Structural and Semantic Context

Arxiv

20+阅读 · 2019年12月19日

KGAT: Knowledge Graph Attention Network for Recommendation

Arxiv

40+阅读 · 2019年5月20日

One for All: Neural Joint Modeling of Entities and Events

Arxiv

11+阅读 · 2018年12月1日

大家都在搜

大型语言模型

IJCAI2025教程

朱克爱德华兹家族

久别重逢话双塔

论文浅尝 - ICLR2020 | 通过神经逻辑归纳学习有效地解释

微信扫码咨询专知VIP会员