21篇入选！微信AI在ACL的成绩单出来了

2021 年 8 月 5 日 微信AI

日前，自然语言处理领域的顶级会议 ACL 2021录取结果已出，微信AI团队多篇论文被主会与Findings of ACL 2021子刊收录。论文研究方向涵盖对话系统、机器翻译、命名实体识别、知识蒸馏、文本预训练、信息抽取、视觉对话等多个领域。

本文将从各个细分领域，对微信AI团队这一次的战绩进行介绍。听说能坚持看完整篇文章的，都是AI届的老粉啦！

对话系统

■ 中文标题：对话过程有其内在结构：一种建模对话语句间的动态变化信息的方法

■ 英文标题：Conversations Are Not Flat: Modeling the Dynamic Information Flow across Dialogue Utterances

■ 中文作者：李泽康、张金超、费政聪、冯洋、周杰

■ 合作单位：中科院计算所

■ 类型：主会长文

■ 摘要：

传统的建模对话历史方法主要分为两种：一种是直接拼接对话历史，这种方法在某种程度上忽略了句子之间序列关系；另外一种是多层次建模，首先建模单轮对话的表示，再以此建模整个对话的表示，这种方法建模单轮对话时忽略了其他对话轮次对它的影响。受到人类认知过程的启发，我们专注于建模每句话对整体对话状态带来的影响，提出了一种建模对话动态信息流的方法DialoFlow。我们在Reddit大规模对话数据集上进行了预训练，在对话生成任务中，我们的模型在两个数据集上都显著优于DialoGPT模型。除此之外，我们在预训练模型的基础上提出了一个不依赖参照句的对话评估指标，该指标实验结果和人工评估结果具有极高的一致性。

■ 中文标题：GTM - 基于三元组语义建模的对话问题生成模型

■ 英文标题：GTM: A Generative Triple-Wise Model for Conversational Question Generation

■ 中文作者：申磊、孟凡东、张金超、冯洋、周杰

■ 合作单位：中科院计算所

■ 类型：主会长文

■ 摘要：

在开放域对话中生成一些问题可以增进人机互动，并将话题引向更广更深的方向。为了避免产生乏味或语义偏离的问题，一些研究人员试图利用答案（即“未来”信息）来指导问题的产生。主要的做法是将<上文-问题-答案>这样的语义三元组分为两组句对：<上文-问题>和<问题-答案>，通过后者的关系得到奖励值，并利用强化学习对前者涉及的网络进行训练，但这样的拆分可能会损害对话整体的连贯性。此外，<问题-答案>关系被建模为“一对一”的匹配问题，而在开放域对话中，“一对多”是更常见的语义关系。为此，我们提出了一种基于<上文-问题-答案>三元组语义建模的生成模型。该模型包含了层次化的隐变量，分别用于表示三元组共享的对话背景信息，<上文-问题>之间和<问题-答案>之间的一对多语义映射。实验结果表明，在大规模的开放域对话问题生成数据集上，该方法生成的问题在流利性，连贯性和多样性方面均显著超过了基线方法。

■ 中文标题：质询对话历史：一个高效实用的开放域对话系统的一致性评估框架

■ 英文标题：Addressing Inquiries about History: An Efficient and Practical Framework for Evaluating Open-domain Chatbot Consistency

■ 中文作者：李泽康、张金超、费政聪、冯洋、周杰

■ 合作单位：中科院计算所

■ 类型：Findings长文

■ 摘要：

随着大规模预训练技术的发展，开放域对话系统可以生成流畅的，信息丰富的对话，然而在聊天过程中，模型经常会生成前后不一致的回复，我们认为当前缺少一种高效的对话一致性评估方法。现有的对话一致性评估方法主要分为两种，人工评估和自动评估。这两种评估方式都依赖于人与机器对话，自动评估是低质量的，人工评估耗时耗力并且没有明确的判断标准。我们通过大量的观察发现，对话系统在谈论事实性或观点性话题时容易出现不一致的情况。因此我们提出了一种高效实用的开放域对话一致性评估框架。此框架分为两部分：质询模块和冲突检测模块。质询模块通过问题生成模型生成一个关于对话历史的问题并收集被测试对话系统的回复。冲突检测模块通过自然语言推理模型对比收集到的回复和对话历史中对应的问题判断是否冲突。实验表明我们的框架可以高效地对对话系统的前后一致性进行评估。

■ 中文标题：规划对话策略学习：一个面向任务型对话体统的自动课程学习框架

■ 英文标题：Scheduled Dialog Policy Learning: An Automatic Curriculum Learning Framework for Task-oriented Dialog System

■ 中文作者：刘思宏、张金超、何可清、徐蔚然、周杰

■ 合作单位：北京邮电大学

■ 类型：Findings长文

■ 摘要：

在传统的基于强化学习的任务型对话系统中，系统通过与用户进行交互来学习对话策略，我们发现用于训练的对话样本有难有易，且用户的主观性和多样性决定了对话样本的学习难度。为此，我们提出了基于课程学习的对话策略学习方法，采用规划训练的方式，从易到难地学习对话策略。目前的研究中尚无评估对话样本难度的方法，因此我们提出了一种自动的对话样本难度评估方法，摆脱了评估样本难度过程中对先验知识的依赖。我们根据对话难度评估的结果对样本进行排序，然后从简单样本开始进行策略学习的训练，逐步提升学习难度。在多个对话数据集上的实验结果证明，我们提出的训练方法能够有效地提高策略学习的效率和效果。

■ 中文标题：基于无监督知识选择的知识对话生成

■ 英文标题：Unsupervised Knowledge Selection for Dialogue Generation

■ 中文作者：陈意、陈龙、孟凡东、李鹏、周杰

■ 类型：Findings长文

■ 摘要：

知识选择可以为对话生成提供合适的知识，是知识对话领域一个重要的任务。然而，用于训练知识选择模块的标准知识标签在现实中难以大规模搜集。本文研究知识标签不可见的无监督知识选择，并提出“蒸馏远程监督损失函数”来监督知识选择。具体地，我们通过远程监督获取ORACLE知识标签作为人工标注知识标签的替代，并通过知识蒸馏来缓解远程监督的噪声标注问题。此外，我们提出了一种两阶段训练策略，即预训练+微调，来解决不匹配知识选择问题。这个问题表现为模型在无监督场景下倾向于选择不匹配知识以进行对话生成，并且会导致知识感知解码器的退化。我们在两个知识对话数据集上的实验研究表明，本方法能够在无监督场景下较为准确地选择知识，成具有信息量的回复，并且生成回复的质量甚至优于一些强壮的有监督基线模型。

机器翻译

■ 中文标题：防止神经机器翻译中的语言模型过自信

■ 英文标题：Prevent the Language Model from being Overconfident in Neural Machine Translation

■ 中文作者：苗孟琦、孟凡东、刘宜进、周晓华、周杰

■ 合作单位：北京大学

■ 类型：主会长文

■ 摘要：

主流的神经机器翻译模型是一种以源语言句子和翻译历史为条件的联合语言模型。语言模型仅基于历史翻译预测下一个词，因此神经机器翻译模型自然地包含了语言模型的功能。尽管神经机器翻译取得了不错的效果，它仍然存在翻译幻觉问题，即可能会生成流利但不忠实的译文。其主要原因是神经机器翻译模型过度重视翻译历史，从而一定程度上忽略了对源语言句子的关注，也就是语言模型过自信。我们定义神经机器翻译模型和语言模型的预测概率之差为Margin，Margin与语言模型的过自信程度负相关。由此，我们提出了基于Margin的词级别训练目标（MTO）和句子级别训练目标（MSO），以最大化Margin防止语言模型过自信。与Transformer基线相比，我们的方法在WMT14英德、WMT19中英和WMT14英法翻译任务上的BLEU值分别提高了1.36、1.50和0.63，证明了本方法的有效性。人工评估进一步证实我们的方法能够提高翻译的忠实度和流利度。

■ 中文标题：神经机器翻译中的选择性知识蒸馏

■ 英文标题：Selective Knowledge Distillation for Neural Machine Translation

■ 中文作者：王福升、颜建昊、孟凡东、周杰

■ 合作单位：北京大学

■ 类型：主会长文

■ 摘要：

知识蒸馏作为神经机器翻译中一个活跃的研究领域，主流方法是将老师模型的知识通过每一个训练样本传递给学生模型，被广泛的应用于提升模型的性能。然而，训练样本作为传输老师模型知识的媒介，其作用和样本间的相互联系却在以往的工作中很少被讨论到。在本文中，我们设计了一种新颖的方式，通过比较不同的样本划分集合来有效分析不同样本的影响。基于上述方式，我们进行了深入的研究试验并发现知识蒸馏中老师模型提供的知识并不是越多越好。特定样本的蒸馏知识可能会损伤知识蒸馏方法的整体效果。进而，为了解决这一问题，我们提出了Batch-level和Global-level两种简单有效的方法来挑选出合适的样本进行蒸馏。我们在WMT14英德和WMT19中英翻译任务上检验了本方法。实验结果表明我们的方法对比Transformer基线分别提升了1.28和0.89的BLEU值。

■ 中文标题：建模双语对话特性的对话机器翻译

■ 英文标题：Modeling Bilingual Conversational Characteristics for Neural Chat Translation

■ 中文作者：梁云龙、孟凡东、陈钰枫、徐金安、周杰

■ 合作单位：北京交通大学

■ 类型：主会长文

■ 摘要：

对话机器翻译旨在翻译双语会话文本，在国际交流与合作中有着广泛的应用。尽管句子级和上下文感知的神经机器翻译已经取得了较好的性能，但在对话角色偏好、对话连贯性和翻译一致性等方面，双语会话文本的翻译仍然存在不足。本文旨在通过建模上述特征，来提高会话文本的翻译效果。具体来说，我们设计了三个潜在的变分模块来学习双语会话特征的分布。通过采样，将这些角色偏好、对话连贯性和翻译一致性隐变量引入神经机器翻译模型中，使更好地进行会话文本翻译。我们在基准数据集BConTrasT（英语<->德语）和我们收集的双语对话数据集BMELD（英语<->中文）上评估了本方法。大量的实验表明，本方法在BLEU和TER指标上显著超越了强基线模型以及当前最好的上下文感知的神经机器翻译模型。此外，我们近期将公开BMELD数据集。

■ 中文标题：基于双语互信息的神经机器翻译自适应训练

■ 英文标题：Bilingual Mutual Information Based Adaptive Training for Neural Machine Translation

■ 中文作者：徐杨一帆、刘宜进、孟凡东、张家俊、徐金安、周杰

■ 合作单位：北京交通大学

■ 类型：主会短文

■ 摘要：

基于词级别的自适应训练在机器翻译上取得了不过的效果。通过赋予不同的目标单词不等的训练权重来调整交叉熵损失函数，可以缓解词汇不均衡的问题。然而，之前的工作仅利用了目标端语言中的静态词频信息，而没有考虑源端语言，这对于像机器翻译这样双语任务是不充分的。本文提出了一种新型的基于双语互信息的自适应训练方法，从双语的角度衡量每个目标单词的学习难度，并相应地分配一个自适应权重，以提高翻译模型的效果。该方法对学习难度较小的单词赋予较大的训练权重，使得容易的单词以粗粒度更新，而相对困难的单词以细粒度更新。在WMT14英德和WMT19中英两个数据集上的实验结果表明，该方法优于Transformer基线模型和之前的词级别自适应训练方法，并且可以进一步提高译文的词汇多样性。

■ 中文标题：基于翻译模型置信度的动态调度采样算法

■ 英文标题：Confidence-Aware Scheduled Sampling for Neural Machine Translation

■ 中文作者：刘宜进、孟凡东、陈钰枫、徐金安、周杰

■ 合作单位：北京交通大学

■ 类型：Findings长文

■ 摘要：

在神经机器翻译中，调度采样算法是一种常见的缓解模型暴露偏差问题（Exposure Bias）的方法。在模型解码器端，调度采样算法随机地用模型译文去替换标准译文作为输入，从而在模型训练阶段仿真出推理阶段的数据分布，进而缓解暴露偏差问题。尽管调度采样算法已经取得了不错的效果，但其核心的调度采样策略仍存在两个问题。首先，现有的调度策略仅是一个基于训练步数的衰减函数，无法反映出实时的模型能力和指导每个时间步的采样选择；其次，大量的模型译文与标准译文相同，导致调度采样算法面临退化为传统的最大似然估计（MLE）的风险。针对以上两个问题，本文提出基于模型置信度的调度采样算法，通过模型预测置信度来衡量模型的实时能力，据此进一步执行细粒度的调度采样策略。即低置信度位置依旧采用标准译文为输入，高置信度位置采用随机噪声作为输入，其他位置则采用模型译文作为输入。三项大规模WMT任务的实验结果表明，本文提出的基于置信度的调度采样算法可以显著地超过传统调度采样算法带来的效果提升。

文本分类

■ 中文标题：利用对比学习和自编码器提升基于梯度的对抗训练在文本分类任务上的性能

■ 英文标题：Improving Gradient-based Adversarial Training for Text Classification by Contrastive Learning and Auto-Encoder

■ 中文作者：邱耀、张金超、周杰

■ 合作单位：N/A

■ 类型：Findings长文

■ 摘要：

基于梯度的对抗训练方法（GAT，Gradient-based Adversarial Training）通过给词嵌入添加扰动，能够提升文本分类模型的性能和鲁棒性。现有的工作主要专注于如何生成更高质量的扰动、如何提升训练效率的问题。本工作从训练目标的角度探索了如何在训练过程中增强模型抵御对抗攻击的能力，从而提升对抗训练的效果，具体地，我们提出了两种新的对抗训练目标：1）对比式对抗表示学习（CARL，Contrastive Aversarial Representation Learning）在模型的表示空间中缩小正样本和其对抗样本之间的距离，同时扩大它们与负样本之间的距离；2）对抗表示还原（Reconstruction from Adversarial Representation）让模型从原始样本的对抗表示中还原原始样本。我们在多个文本分类数据集上验证了CARL和RAR对于提升对抗训练效果的有效性。

命名实体识别

■ 中文标题：充分利用异构数据：一种解耦的两阶段训练的命名实体识别模型

■ 英文标题：Toward Fully Exploiting Heterogeneous Corpus：A Decoupled Named Entity Recognition Model with Two-stage Training

■ 中文作者：胡韵、朱叶霜、张金超、郑昌文、周杰

■ 合作单位：中国科学院软件研究所

■ 类型：Findings长文

■ 摘要：

命名实体识别在自然语言处理中是一个基础、应用广泛的任务。通常的命名实体识别模型使用人工标注的数据，然而，数据标注需要耗费大量的时间和金钱，这限制了标注数据的规模，形成了命名实体识别模型的性能瓶颈。在现实生活中，我们能够采用自动化的方法收集到大规模的实体词典和远程监督数据。但是，实体词典缺少有意义的上下文信息，远程监督数据包含大量的噪声，所以直接使用实体词典数据和远程监督数据会给命名实体识别模型带来不确定的因素。为了解决上述问题，我们提出了一个基于BERT的二阶段解耦模型来更好的利用这些异构数据（实体词典，远程监督数据和人工标注的数据）。在预训练阶段，我们设计了Mention-BERT和Context-BERT来分别学习上下文无关的实体词典和带噪声的远程监督数据。在微调阶段，通过对候选实体的预测，来对Mention-BERT和Context-BERT使用人工标注的数据进行统一训练。在三个中文命名实体识别数据集的的实验上，我们的方法都取得了最佳结果，并显著超越其他基线方法。

■ 中文标题：面向零资源命名实体识别的目标导向的模型微调

■ 英文标题：Target-oriented Fine-tuning for Zero-Resource Named Entity Recognition

■ 中文作者：张颖、孟凡东、陈钰枫、徐金安、周杰

■ 合作单位：北京交通大学

■ 类型：Findings长文

■ 摘要：

零资源命名实体识别在特定领域或语言中面临严重的数据稀缺问题。大多数研究工作通过在不同辅助任务上进行微调（fine-tune），实现对不同数据的知识迁移。然而，如何更加地有效利用这些训练数据和更多的辅助任来提升效果，仍有待进一步探究。针对该问题，本文分别从领域、语言和任务三个方面进行知识迁移。特别地，我们提出四个实用的准则来指导知识迁移和任务微调的实现。基于上述准则，我们设计了一个新颖的目标导向的微调框架，对来自上述三个方面的不同数据进行统一训练。实验结果表明，相比基线模型，我们的方法在六个跨语言和跨领域数据集上取得了一致性的显著提升，并在其中五个数据集上达到了SOTA效果。

文本预训练

■ 中文标题：重新审视自然语言处理模型后门攻击的隐蔽性问题

■ 英文标题：Rethinking Stealthiness of Backdoor Attack against NLP Models

■ 中文作者：杨文恺、林衍凯、李鹏、周杰、孙栩

■ 合作单位：北京大学

■ 类型：主会长文

■ 摘要：

最近的研究表明使用大型第三方自然语言处理模型存在后门攻击的安全威胁。被后门攻击的模型可以在正常样本上实现良好的效果，但在注入了预设触发词的输入上给出错误的预测。在这项工作中，我们指出了当前后门攻击研究潜在的问题：其评估体系忽略了后门攻击的隐秘性，并且现有的大多数后门攻击方法对于系统部署者或系统用户而言都不是隐秘的。为了解决此问题，我们提出了针对后门攻击隐蔽性的评价指标，使得后续的后门攻击研究工作可以全面地对后门攻击的效果进行评估。此外，我们还提出了一种基于对抗数据扩充和词嵌入的隐蔽后门攻击方法，向后门攻击的隐蔽性研究迈出了重要的一步。

■ 中文标题：ERICA: 通过对比学习提升预训练语言模型的实体与关系理解

■ 英文标题：ERICA: Improving Entity and Relation Understanding for Pre-trained Language Models via Contrastive Learning

■ 中文作者：秦禹嘉、林衍凯、高信龙一、刘知远、李鹏、季姮、黄民烈、孙茂松、周杰

■ 合作单位：清华大学、伊利诺伊大学厄巴纳-香槟分校（UIUC）

■ 类型：主会长文

■ 摘要：

预训练语言模型在各种自然语言处理任务上显示出卓越的性能。但是常规的预训练语言模型并未学会在文本中建模实体的关系事实（relational facts），而这对于理解文本至关重要。为了解决这个问题，我们提出了一种新颖的对比学习框架ERICA，以帮助预训练模型深入了解文本中的实体（entity）及其关系（relation）。具体来说，我们定义了两个新颖的预训练任务：（1）实体区分（entity discrimination）任务，给定头部实体和关系，训练模型推断出对应尾部实体；（2）关系区分（relation discrimination）任务，区分两个关系在语义上是否接近，这涉及复杂的关系推理。实验结果表明，ERICA可以在多种语言理解任务（包括关系抽取，实体类型分辨和问答），尤其是在资源匮乏的环境下，提升预训练模型的性能。

■ 中文标题：CLEVE: 面向事件抽取的对比学习

■ 英文标题：CLEVE: Contrastive Pre-training for Event Extraction

■ 中文作者：王子奇、王晓智、韩旭、林衍凯、侯磊、刘知远、李鹏、李涓子、周杰

■ 合作单位：清华大学

■ 类型：主会长文

■ 摘要：

预训练模型能显著地提升事件抽取的表现，然而现有的预训练方法并没有特别关注事件特征，导致构建的事件抽取模型不能充分利用大规模无监督数据中的丰富事件信息。我们提出了一个基于对比学习的预训练框架CLEVE，它包含一个文本编码器和一个图编码器，两个编码器通过自监督的对比学习来学习事件语义和事件结构的表示。实验表明，CLEVE能让预训练模型更好地从大型无监督数据中学习事件知识和对应的语义结构，从而在有监督和无监督两个场景及ACE 2005和MAVEN两个数据集上都取得了更好的效果。

信息抽取

■ 中文标题：手工评测的重要性：重新审视远程监督关系抽取的评价体系

■ 英文标题：Manual Evaluation Matters: Reviewing Test Protocols of Distantly Supervised Relation Extraction

■ 中文作者：高天宇、韩旭、白钰卓、邱可玥、谢芷钰、林衍凯、刘知远、李鹏、孙茂松、周杰

■ 合作单位：清华大学

■ 类型：Findings长文

■ 摘要：

远程监督关系抽取（DS-RE）利用已有的结构化数据，通过远程对齐知识库对数据进行自动化标注，构建大规模数据集。近年来DS-RE取得了较大的发展，但大部分研究中的测试集仍然是使用DS方法构建的数据集，其中的错误标注以及长尾问题可能导致误差率较高，评估不准确。针对这个问题，本文进行了以下工作：1.针对远程监督数据集NYT10进行关系重构，并针对NYT10及另一个远程监督数据集Wiki-distant进行测试集人工精确标注，构建了两个精标注的NYT10和Wiki20数据集来代替传统的自动标注数据集；2.针对已有的DS-RE模型进行复现，对比模型在远程监督测试集及人工标注数据集上的表现差异并进行解释，补全DS-RE研究在人工标注评测方面的缺失，在评估了一系列主流模型后我们得到了许多不同于自动标注的结果。

知识蒸馏

■ 中文标题：边际效益递减：探究BERT知识蒸馏中的最少知识学习

■ 英文标题：Marginal Utility Diminishes: Exploring the Minimum Knowledge for BERT Knowledge Distillation

■ 中文作者：刘源鑫、孟凡东、林政、王伟平、周杰

■ 合作单位：中科院信工所

■ 类型：主会长文

■ 摘要：

知识蒸馏技术在BERT压缩中取得了很大的成功。前人研究发现，BERT的隐层知识（Hidden State Knowledge, 简称HSK）中包含丰富的信息，因此蒸馏HSK会比传统的蒸馏输出概率效果更好。为了更充分地利用BERT的隐层信息，前人通常致力于把更多的HSK加到蒸馏中。然而，我们发现HSK蒸馏中存在边际效益递减现象，即蒸馏带来的效果提升随着HSK量的增加快速下降（下图在两个学生模型和四个任务上展示了该现象）。为了理解这一现象，我们进行了一系列的实验分析。我们将HSK分成了模型深度、文本序列长度和模型隐层宽度三个维度。我们首先对每个维度单独压缩，探索如何找出重要的知识，然后在此基础上对三个维度综合压缩。我们发现：1）提取重要的知识可以提升学生模型的效果；2）只用一小部分的HSK就可以取得和全量HSK相当的效果。基于第二个发现，我们提出了一种更加高效的BERT蒸馏范式，此范式不需要在蒸馏过程中在线调用教师模型，从而可以显著提高训练速度。

代码生成

■ 中文标题：探索代码生成中的动态挑选分支扩展顺序

■ 英文标题：Exploring Dynamic Selection of Branch Expansion Orders for Code Generation

■ 中文作者：蒋辉、周楚伦、孟凡东、张飚、周杰、黄德根、吴清强、苏劲松

■ 合作单位：厦门大学

■ 类型：主会长文

■ 摘要：

代码生成任务是将自然语言文本自动转换成对应的代码。然而，先前的方法都是按照先序遍历逐个节点生成代码相对应的抽象语法树。本文发现实例在不同生成顺序上有不一致的表现，因此提出使用一个决策网络来动态选择生成分支的顺序。由于生成顺序是不可导的操作，我们采用强化学习的方法来同时训练模型和决策网络。并且我们设计了新的奖励函数，使用不同生成顺序的Loss之差来表示当前分支选择的好坏。在多个公开数据集上证明了本方法的有效性。

视觉对话

■ 中文标题：GoG：视觉对话中关系启发的堆叠图网络

■ 英文标题：GoG: Relation-aware Graph-over-Graph Network for Visual Dialog

■ 中文作者：陈龙、陈意、孟凡东、李鹏、周杰

■ 类型：Findings长文

■ 摘要：

视觉对话旨在与人类就给定的图像进行有意义的对话，这是一项非常有挑战的任务，需要模型来推理视觉内容、对话历史和当前问题之间的复杂依赖关系。近年来，图神经网络被广泛应用于图像或对话中对象间隐式关系的建模。然而，前人方法在以下两方面存在不足：1）对话历史之间的共指关系和词与词之间的依赖关系对问题表征的重要性，2）基于完全表示问题的图像表示。因此，我们提出了一种新的关系启发的堆叠网络图（GoG）来进行视觉对话。具体来说，GoG由三个序列图组成：1）H-Graph，其目的是捕捉对话历史之间的相关关系；2）历史感知的Q-Graph，基于对话历史上的共指消解，通过捕捉词与词之间的依赖关系来全面理解问题；3）问题感知I-Graph，基于完全问题表示，捕捉图像中对象之间的关系。作为一个附加的特征表示模块，我们将GoG添加到现有的视觉对话模型中。在VisDial v0.9和v1.0数据集上的实验结果表明了该方法的优越性。

■ 中文标题：面向视觉对话的带有视觉定位的多模态增量式Transformer

■ 英文标题：Multimodal Incremental Transformer with Visual Grounding for Visual Dialogue Generation

■ 中文作者：陈龙、孟凡东、陈意、李鹏、周杰

■ 类型：Findings长文

■ 摘要：

视觉对话是一项具有挑战性的任务，因为它需要在理解视觉环境的基础上回答一系列连贯的问题。以往的研究侧重于对多模态共指的隐式探索，通过对空间图像特征或对象级图像特征的隐式关注，而忽视了在视觉内容中显式定位对象的重要性，即与文本内容中的实体相关联。因此，本文提出了一种带有显示视觉定位的多模态增量式Transformer，称为MITVG。它由两个关键部分组成：视觉定位和多模增量式Transformer。视觉定位，目的是在文本实体的引导下，在图像中明确地定位相关对象，帮助模型排除不需要注意的视觉内容。在视觉定位的基础上，多模态增量式Transformer根据对话的顺序，结合视觉场景，对多轮对话历史进行逐步编码，从而生成上下文和视觉上一致的回复。在VisDial v0.9和v1.0数据集上的实验结果表明了该模型的优越性。

微信AI

不描摹技术的酷炫，不依赖拟人的形态，微信AI是什么？是悄无声息却无处不在，是用技术创造更高效率，是更懂你。

微信AI关注语音识别与合成、自然语言处理、计算机视觉、工业级推荐系统等领域，成果对内应用于微信翻译、微信视频号、微信看一看等业务，对外服务王者荣耀、QQ音乐等产品。