800万中文词，腾讯AI Lab开源大规模NLP数据集

会员服务 ·

800万中文词，腾讯AI Lab开源大规模NLP数据集

2018 年 10 月 19 日 AI100

参加 2018 AI开发者大会，请点击 ↑↑↑

10 月19 日，腾讯 AI Lab 宣布开源大规模、高质量的中文词向量数据。该数据包含 800 多万中文词汇。

腾讯 AI Lab 表示，相比现有的公开数据，该数据在覆盖率、新鲜度及准确性上大幅提高，为对话回复质量预测和医疗实体识别等自然语言处理方向的业务应用带来显著的效能提升。

▌腾讯 AI Lab 词向量的特点

腾讯 AI Lab 此次公开的中文词向量数据包含 800 多万中文词汇，其中每个词对应一个 200 维的向量。相比现有的中文词向量数据，腾讯 AI Lab 的中文词向量着重提升了以下 3 个方面：

覆盖率（Coverage）：

该词向量数据包含很多现有公开的词向量数据所欠缺的短语，比如“不念僧面念佛面”、“冰火两重天”、“煮酒论英雄”、“皇帝菜”、“喀拉喀什河”等。以“喀拉喀什河”为例，利用腾讯AI Lab词向量计算出的语义相似词如下：

墨玉河、和田河、玉龙喀什河、白玉河、喀什河、叶尔羌河、克里雅河、玛纳斯河

新鲜度（Freshness）：

该数据包含一些最近一两年出现的新词，如“恋与制作人”、“三生三世十里桃花”、“打call”、“十动然拒”、“供给侧改革”、“因吹斯汀”等。以“因吹斯汀”为例，利用腾讯 AI Lab 词向量计算出的语义相似词如下：

一颗赛艇、因吹斯听、城会玩、厉害了word哥、emmmmm、扎心了老铁、神吐槽、可以说是非常爆笑了

准确性（Accuracy）：

由于采用了更大规模的训练数据和更好的训练算法，所生成的词向量能够更好地表达词之间的语义关系，如下列相似词检索结果所示：

输入

刘德华

兴高采烈

狂奔

自然语言处理

相似词

刘天王

兴高彩烈

飞奔

自然语言理解

周润发

兴冲冲

一路狂奔

计算机视觉

华仔

欢天喜地

奔跑

自然语言处理技术

梁朝伟

兴致勃勃

狂跑

深度学习

张学友

眉飞色舞

疾驰

机器学习

古天乐

得意洋洋

飞驰

图像识别

张家辉

喜笑颜开

疾奔

语义理解

张国荣

欢呼雀跃

奔去

语音识别

得益于覆盖率、新鲜度、准确性的提升，在内部评测中，腾讯AI Lab提供的中文词向量数据相比于现有的公开数据，在相似度和相关度指标上均达到了更高的分值。

▌腾讯 AI Lab 词向量的构建

为了生成高覆盖率、高新鲜度、高准确性的词向量数据，腾讯 AI Lab 主要从以下 3 个方面对词向量的构建过程进行了优化：

语料采集：

训练词向量的语料来自腾讯新闻和天天快报的新闻语料，以及自行抓取的互联网网页和小说语料。大规模多来源语料的组合，使得所生成的词向量数据能够涵盖多种类型的词汇。而采用新闻数据和最新网页数据对新词建模，也使得词向量数据的新鲜度大为提升。

词库构建：

除了引入维基百科和百度百科的部分词条之外，还实现了 Shi 等人于 2010 年提出的语义扩展算法 [5]，可从海量的网页数据中自动发现新词——根据词汇模式和超文本标记模式，在发现新词的同时计算新词之间的语义相似度。

训练算法：

腾讯 AI Lab 采用自研的 Directional Skip-Gram (DSG)算法 [6] 作为词向量的训练算法。DSG 算法基于广泛采用的词向量训练算法 Skip-Gram (SG)，在文本窗口中词对共现关系的基础上，额外考虑了词对的相对位置，以提高词向量语义表示的准确性。

▌中文 NLP 数据集的意义

近年来，深度学习技术在自然语言处理领域中得到了广泛应用。基于深度神经网络的模型已经在词性标注、命名实体识别、情感分类等诸多任务上显著超越了传统模型。用深度学习技术来处理自然语言文本，离不开文本的向量化，即把一段文本转化成一个n维的向量。在大量任务中，作为千变万化的文本向量化网络架构的共同底层，嵌入层（Embedding Layer）负责词汇（文本的基本单元）到向量（神经网络计算的核心对象）的转换，是自然语言通向深度神经网络的入口。大量的学界研究和业界实践证明，使用大规模高质量的词向量初始化嵌入层，可以在更少的训练代价下得到性能更优的深度学习模型。

目前，针对英语环境，工业界和学术界已发布了一些高质量的词向量数据，并得到了广泛的使用和验证。其中较为知名的有谷歌公司基于word2vec算法[1]、斯坦福大学基于GloVe算法[2]、Facebook基于fastText项目[3]发布的数据等。

然而，目前公开可下载的中文词向量数据[3,4]还比较少，并且数据的词汇覆盖率有所不足，特别是缺乏很多短语和网络新词。因此，腾讯 AI Lab 开源中文词向量数据对中文 NLP 的研究者来说，绝对算得上是一个利好消息。

最后，送上传送门：

https://ai.tencent.com/ailab/nlp/embedding.html

[1] Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S. Corrado, and Jeffrey Dean:Distributed Representations of Words and Phrases and their Compositionality. NIPS 2013.

[2] Jeffrey Pennington, Richard Socher, and Christopher D. Manning. GloVe: Global Vectors for Word Representation. EMNLP 2014.

[3] P. Bojanowski, E. Grave, A. Joulin, T. Mikolov, Enriching Word Vectors with Subword Information. TACL 2017 (5).

[4] Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du. Analogical Reasoning on Chinese Morphological and Semantic Relations. ACL 2018.

[5] Shuming Shi, Huibin Zhang, Xiaojie Yuan, and Ji-Rong Wen. Corpus-based Semantic Class Mining: Distributional vs. Pattern-Based Approaches. COLING 2010.

[6] Yan Song, Shuming Shi, Jing Li, and Haisong Zhang. Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings. NAACL 2018.

[7] Jialong Han, Yan Song, Wayne Xin Zhao, Shuming Shi, and Haisong Zhang. hyperdoc2vec: Distributed Representations of Hypertext Documents. ACL 2018.

[8] Jichuan Zeng, Jing Li, Yan Song, Cuiyun Gao, Michael R. Lyu, and Irwin King. Topic Memory Networks for Short Text Classification. EMNLP 2018.

[9] Yan Song and Shuming Shi. Complementary Learning of Word Embeddings. IJCAI 2018.

[10] Yan Song, Shuming Shi, and Jing Li. Joint Learning Embeddings for Chinese Words and their Components via Ladder Structured Networks. IJCAI 2018.