论文浅尝 | 知识图谱增强的机器翻译

会员服务 ·

论文浅尝 | 知识图谱增强的机器翻译

2022 年 9 月 30 日 开放知识图谱

笔记整理：张嘉芮，天津大学硕士

链接：https://www.ijcai.org/Proceedings/2020/0559.pdf

动机

在机器翻译中，实体的正确翻译对于译文质量有着至关重要的作用。知识图（KG）在各种实体上存储了大量结构化信息，其中许多实体不在神经机器翻译（NMT）的双语句子对中，导致实体的错翻率较高，因此本文关注神经机器翻译中的实体翻译。

亮点

本文的亮点主要包括：

(1)提出了一种将非并行KG合并到NMT模型中的方法。

(2)设计了一种新的方法来归纳K-D实体使用KG生成的翻译结果，生成伪并行句子对，并促进NMT更好地预测K−D实体。

模型

问题定义：

本文所利用的数据资源包括以下三个：

1.双语句子对：D={(X,Y)}，其中X是源语言，Y是目标语言。

2.源语言知识图谱： $K G_s=\left\{\left(h_s, r_s, t_s\right)\right\}$ ，其中 $h_s$ 为源端头实体， $t_s$ 为源端尾实体， $r_s$ 为它们之间的关系。

3.目标语言知识图谱： $K G_t=\left\{\left(h_t, r_t, t_t\right)\right\}$ ，其中 $h_t$ 为目标端头实体， $t_t$ 为目标端尾实体， $r_t$ 为它们之间的关系。

注： $KG_S$ 和 $KG_t$ 并不是互相平行的。本文的目的是提升K-D实体的翻译质量，其中K-D实体的定义为：

$\begin{aligned} &\mathbb{O}_{e s}=\left\{O_{e s} \mid O_{e s} \in K G_s \text { and } O_{e s} \notin D\right\} \\ &\mathbb{O}_{e t}=\left\{O_{e t} \mid O_{e t} \in K G_t \text { and } O_{e t} \notin D\right\} \\ &\mathbb{O}=\mathbb{O}_{e s} \cup \mathbb{O}_{e t} \end{aligned}$

其中 $O_{e s}$ 和 $O_{e t}$ 分别为源端K-D和目标端K-D。

框架：

模型整体框架如下：

本文所提方法包括三个步骤：

1.双语K-D实体推断

①将源语言知识图谱 $K_s$ 和目标语言知识图谱 $K_t$ 利用知识表示学习（例如TransE和TransH等），将源端实体和目标端实体分别表示为向量 $E_s$ 和 $E_t$ 。

②利用双语句对，首先提取出短语翻译对，利用上述段语言翻译对作为种子实体翻译对。

③利用种子实体翻译对为锚点，将 $E_s$ 和 $E_t$ 映射到同一语义空间。

④根据语义距离，预测出K-D实体的译文。

2．伪双语数据构造

推断实体对和种子实体对之间的语义距离：

\left\|\mathbb{E}_s\left(i_s\right)-\mathbb{E}_s\left(s_s\right)\right\|+\left\|\mathbb{E}_t\left(i_t\right)-\mathbb{E}_t\left(s_t\right)\right\|<\lambda

如果它们之间的距离小于预定义的阈值λ，就将种子词的上下文迁移至推断实体对的上下文，进而生成伪双语数据。

3．联合训练

将原始双语数据和伪双语数据进行联合训练，学习神经机器翻译的参数，损失函数为：

L(\theta)=\sum_{(X, Y) \in D} \log p(Y \mid X ; \theta)+\sum_{\left(X_p, Y_p\right) \in D_p} \log p\left(Y_p \mid X_p ; \theta\right)

实验

1.总体结果

本文所提方法在中英（医疗领域、旅游领域和通用领域）和英日翻译任务上均有一定BLEU值的提升。

2.超参数分析

在算法1中，本文设置了一个预定义的超参数δ来确定双语对。表中显示了不同δ（医学KG）的BLEU分数。可以看到，当δ=0.45时，BLEU分数最大。当δ超过0.45时，BLEU分数（dev）从15.96降至14.94。同时结果表明：需要在K −D实体对的数量之间取得平衡，并不是越多越好。

3.K-D实体的分析

给出了不包含（Sent w/o K-D）和包含K-D（Sent w K-D）实体句子的BLEU值，从表中可以看出，所提方法对于包含K-D（Sent w K-D）实体句子有着明显的提升。

总结

为了解决NMT中的K-D实体，本文提出了一种知识图谱增强的NMT方法。本文设计了一种新的方法来归纳K-D实体使用KG生成的翻译结果，生成伪并行句子对，最后联合训练NMT模型。在汉英翻译和英日翻译任务上的大量实验表明，本文方法在翻译质量上明显优于基线模型，尤其是在处理K−D实体上。

OpenKG

OpenKG（中文开放知识图谱）旨在推动以中文为核心的知识图谱数据的开放、互联及众包，并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文，进入 OpenKG 网站。

登录查看更多

相关内容

实体

关注 12

实体（entity）是有可区别性且独立存在的某种事物，但它不需要是物质上的存在。尤其是抽象和法律拟制也通常被视为实体。实体可被看成是一包含有子集的集合。在哲学里，这种集合被称为客体。实体可被使用来指涉某个可能是人、动物、植物或真菌等不会思考的生命、无生命物体或信念等的事物。在这一方面，实体可以被视为一全包的词语。有时，实体被当做本质的广义，不论即指的是否为物质上的存在，如时常会指涉到的无物质形式的实体－语言。更有甚者，实体有时亦指存在或本质本身。在法律上，实体是指能具有权利和义务的事物。这通常是指法人，但也包括自然人。

【AAAI 2022】XLM-K：通过多语言知识库提高跨语言预训练模型

专知会员服务

25+阅读 · 2022年1月13日

EMNLP 2021 | 学习改写非自回归机器翻译的翻译结果

专知会员服务

14+阅读 · 2021年12月25日

【ACL2021】利用自标注的词对齐提升预训练跨语言语言模型

专知会员服务

15+阅读 · 2021年8月13日

【ACL2021】预训练语言模型的少样本知识图谱文本生成

专知会员服务

38+阅读 · 2021年6月6日