LTP 4.0！单模型完成6项自然语言处理任务

2020 年 6 月 21 日 PaperWeekly

背景

语言技术平台 （Language Technology Platform, LTP）是哈工大社会计算与信息检索研究中心（HIT-SCIR）历时多年研发的一整套高效、高精度的中文自然语言处理开源基础技术平台。

该平台集词法分析（分词、词性标注、命名实体识别）、句法分析（依存句法分析）和语义分析（语义角色标注、语义依存分析）等多项自然语言处理技术于一体。其中句法分析、语义分析等多项关键技术多次在CoNLL国际评测中获得了第1名。此外，平台还荣获了2010年中国中文信息学会科学技术一等奖、2016年黑龙江省科技进步一等奖。

目前，LTP已被包括清华大学、北京大学、CMU等国内外众多大学及科研机构在内的600余家研究单位签署协议使用。同时，向百度、腾讯、华为、讯飞等多家知名公司收费授权。

GitHub的星标达2500余个，Fork数750余个。有效解决了自然语言处理技术入行门槛高，准确率、效率偏低，缺少共享数据和程序资源，重复开发现象严重，结果可视化差，错误分析困难，较难真正支持各类应用研究等众多问题。

特色

哈工大SCIR本科生冯云龙等同学在车万翔教授指导下，于近日对LTP进行了新一轮的全面升级，并推出了LTP 4.0版本。此次升级的主要改进为：

基于多任务学习框架进行统一学习，使得全部六项任务可以共享语义信息，达到了知识迁移的效果。既有效提升了系统的运行效率，又极大缩小了模型的占用空间
基于预训练模型进行统一的表示，有效提升了各项任务的准确率
基于教师退火模型蒸馏出单一的多任务模型，进一步提高了系统的准确率
基于PyTorch框架开发，提供了原生的Python调用接口，通过pip包管理系统一键安装，极大提高了系统的易用性

性能

下表列出了新旧版LTP在精度、效率和模型大小方面的对比：

为了模型的小巧易用，本次发布的版本基于哈工大讯飞联合实验室发布的中文 ELECTRA Small 预训练模型。后续将陆续发布基于不同预训练模型的版本，从而为用户提供更多准确率和效率平衡点的选择。

测试环境如下：

Python 3.7
LTP 4.0 Batch Size = 1
CentOS 3.10.0-1062.9.1.el7.x86_64
Intel(R) Xeon(R) CPU E5-2640 v4 @ 2.40GHz

备注： 速度数据在人民日报命名实体测试数据上获得，速度计算方式均为所有任务顺序执行的结果。另外，语义角色标注与语义依存新旧版采用的语料不相同，因此无法直接比较（新版语义依存使用SemEval 2016语料，语义角色标注使用CTB语料）。

使用

新版LTP采用原生Python实现，仅需运行 pip install ltp 即可安装使用。调用方式：

from ltp import LTP
ltp = LTP() # 默认自动下载并加载 Small 模型
segment, hidden = ltp.seg(["他叫汤姆去拿外衣。"])
pos = ltp.pos(hidden)
ner = ltp.ner(hidden)
srl = ltp.srl(hidden)
dep = ltp.dep(hidden)
sdp = ltp.sdp(hidden)

欢迎访问http://ltp.ai/（点击文末“阅读原文”进行跳转），获取平台的源代码、模型及更详细的介绍信息，敬请提出反馈意见。

更多阅读

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

📝 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

📬 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

登录查看更多

相关内容

句法分析

关注 0

句法分析(Parsing)就是指对句子中的词语语法功能进行分析，比如“我来晚了”，这里“我”是主语，“来”是谓语，“晚了”是补语。句法分析（syntactic parsing）是对输入的文本句子进行分析以得到句子的句法结构的处理过程。对句法结构进行分析，一方面是语言理解的自身需求，句法分析是语言理解的重要一环，另一方面也为其它自然语言处理任务提供支持。例如句法驱动的统计机器翻译需要对源语言或目标语言（或者同时两种语言）进行句法分析；语义分析通常以句法分析的输出结果作为输入以便获得更多的指示信息。

【CCL 2019】ATT-第19期：预训练模型--自然语言处理的新范式（车万翔）

专知会员服务

41+阅读 · 2019年11月12日

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

专知会员服务

51+阅读 · 2019年11月8日

【哈工大车万翔教授】自然语言处理NLPer的核心竞争力是什么？，19页ppt

专知会员服务

34+阅读 · 2019年11月5日

问答与对话-技术与系统之任务型对话系统【车万翔张伟男】第十四届中国中文信息学会暑期学校暨中国中文信息学会《前沿科技讲习班》ATT第13期

专知会员服务

63+阅读 · 2019年10月23日