会员服务 ·

资源 | 腾讯开源800万中文词的NLP数据集

2018 年 10 月 29 日 THU数据派

本文经AI新媒体量子位（公众号ID：qbitai）授权转载，转载请联系出处。

本文约1200字，建议阅读6分钟。

本文为你介绍鹅厂近期正式开源的一个大规模、高质量的中文词向量数据集。

鹅厂开源，+1 again~

又一来自腾讯AI实验室的资源帖。

腾讯AI实验室宣布，正式开源一个大规模、高质量的中文词向量数据集。

该数据集包含800多万中文词汇，相比现有的公开数据，在覆盖率、新鲜度及准确性上大幅提高。

在对话回复质量预测、医疗实体识别等自然语言处理方向的业务应用方面，腾讯内部效果提升显著。

数据集特点

总体来讲，腾讯AI实验室此次公开的中文词向量数据集包含800多万中文词汇，其中每个词对应一个200维的向量。

具体方面，腾讯自称，该数据集着重在3方面进行了提升：

1. 覆盖率（Coverage）：

该词向量数据包含很多现有公开的词向量数据所欠缺的短语，比如“不念僧面念佛面”、“冰火两重天”、“煮酒论英雄”、“皇帝菜”、“喀拉喀什河”等。

以“喀拉喀什河”为例，利用腾讯AI Lab词向量计算出的语义相似词如下：

墨玉河、和田河、玉龙喀什河、白玉河、喀什河、叶尔羌河、克里雅河、玛纳斯河

2. 新鲜度（Freshness）：

该数据包含一些最近一两年出现的新词，如“恋与制作人”、“三生三世十里桃花”、“打call”、“十动然拒”、“供给侧改革”、“因吹斯汀”等。

以“因吹斯汀”为例，利用腾讯AI Lab词向量计算出的语义相似词如下：

一颗赛艇、因吹斯听、城会玩、厉害了word哥、emmmmm、扎心了老铁、神吐槽、可以说是非常爆笑了

3. 准确性（Accuracy）：

由于采用了更大规模的训练数据和更好的训练算法，所生成的词向量能够更好地表达词之间的语义关系，如下列相似词检索结果所示：

在开源前，腾讯内部经历了多次测评，认为该数据集相比于现有的公开数据，在相似度和相关度指标上均达到了更高的分值。

数据集构建经验

那么这样的数据集，腾讯AI实验室是如何构建的呢？

他们围绕3方面分享了构建及优化经验：

1. 语料采集：

训练词向量的语料来自腾讯新闻和天天快报的新闻语料，以及自行抓取的互联网网页和小说语料。

大规模多来源语料的组合，使得所生成的词向量数据能够涵盖多种类型的词汇。

而采用新闻数据和最新网页数据对新词建模，也使得词向量数据的新鲜度大为提升。

2. 词库构建：

除了引入维基百科和百度百科的部分词条之外，还实现了Shi等人于2010年提出的语义扩展算法，可从海量的网页数据中自动发现新词——根据词汇模式和超文本标记模式，在发现新词的同时计算新词之间的语义相似度。

3. 训练算法：

腾讯AI Lab采用自研的Directional Skip-Gram (DSG)算法作为词向量的训练算法。

DSG算法基于广泛采用的词向量训练算法Skip-Gram (SG)，在文本窗口中词对共现关系的基础上，额外考虑了词对的相对位置，以提高词向量语义表示的准确性。

意义

最后，表扬一下鹅厂的开源之举。

目前针对英语环境，工业界和学术界已发布了一些高质量的词向量数据，并得到了广泛的使用和验证。

其中较为知名的有谷歌公司基于word2vec算法、斯坦福大学基于GloVe算法、Facebook基于fastText项目发布的数据等。

然而，目前公开可下载的中文词向量数据还比较少，并且数据的词汇覆盖率有所不足，特别是缺乏很多短语和网络新词。

所以有资源有能力的腾讯，还有心做这样的事情，对业界实属利好。

希望腾讯AI实验室的开源之举，多多益善吧~

传送门

数据下载地址：

https://ai.tencent.com/ailab/nlp/embedding.html

— 完 —

登录查看更多

相关内容

词向量

关注 0

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

专知会员服务

41+阅读 · 2020年7月1日

基于深度学习的主题模型研究，中文综述，29页pdf，计算机学报

专知会员服务

120+阅读 · 2020年5月20日

【天津大学】知识图谱划分算法研究综述

专知会员服务

104+阅读 · 2020年4月27日

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

专知会员服务

33+阅读 · 2020年4月5日

【CMU-TACL2020】低资源跨语言实体链接，Low-resource Crosslingual EntityLinking

专知会员服务

16+阅读 · 2020年3月29日

Facebook AI何恺明等最新研究MoCo(动量对比学习)第二版，超越Hinton的SimCLR，刷新ImageNet准确率

专知会员服务

35+阅读 · 2020年3月11日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知会员服务

43+阅读 · 2020年2月12日

图像内容自动描述技术综述

专知会员服务

84+阅读 · 2019年11月17日

面向社会媒体的多模态情感分析与表达，搜狗AI交互技术中心高级总监陈伟，第八届全国社会媒体处理大会SMP2019

专知会员服务

46+阅读 · 2019年10月22日

斯坦福&谷歌Jeff Dean最新Nature论文：医疗深度学习技术指南

专知会员服务

56+阅读 · 2019年10月20日

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

数据派THU

37+阅读 · 2019年6月23日

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

鸟枪换炮，如何在推荐中发挥AI Lab开源中文词向量的威力？

AINLP

16+阅读 · 2019年6月15日

优质中文NLP资源集合，做项目一定用得到！

数据派THU

18+阅读 · 2019年3月3日

相似词查询：玩转腾讯 AI Lab 中文词向量

AINLP

11+阅读 · 2019年2月25日

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

量子位

26+阅读 · 2019年2月14日

干货下载 | 中文自然语言处理语料/数据集

七月在线实验室

30+阅读 · 2018年12月27日

800万中文词，腾讯AI Lab开源大规模NLP数据集

黑龙江大学自然语言处理实验室

10+阅读 · 2018年10月26日

命名实体识别从数据集到算法实现

专知

55+阅读 · 2018年6月28日

资源|各领域公开数据集

七月在线实验室

5+阅读 · 2017年8月25日

Improving Candidate Generation for Low-resource Cross-lingual Entity Linking

Arxiv

8+阅读 · 2020年3月3日

Low-Resource Response Generation with Template Prior

Arxiv

4+阅读 · 2019年9月26日

Language Modelling Makes Sense: Propagating Representations through WordNet for Full-Coverage Word Sense Disambiguation

Arxiv

3+阅读 · 2019年6月24日

Glyce: Glyph-vectors for Chinese Character Representations

Arxiv

6+阅读 · 2019年1月29日

Learning Semantic Sentence Embeddings using Pair-wise Discriminator

Arxiv

6+阅读 · 2018年6月15日

Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba

Arxiv

15+阅读 · 2018年5月24日

Hashing as Tie-Aware Learning to Rank

Arxiv

5+阅读 · 2018年3月28日

Zero-Shot Sketch-Image Hashing

Arxiv

5+阅读 · 2018年3月6日

Improving Sentiment Analysis in Arabic Using Word Representation

Arxiv

3+阅读 · 2018年2月28日

Efficient Parallel Translating Embedding For Knowledge Graphs

Arxiv

9+阅读 · 2018年1月9日

VIP会员