2019年了,中文分词到底该怎么做?中文分词十年方法大盘点

2019 年 2 月 7 日 专知

【导读】基本上所有的中文自然语言处理任务,第一步都需要先分词。中文分词是中文NLP的基础任务和研究方向。小编前些日子,在Arxiv上看到了蔡登同学开放的《中文分词十年又回顾: 2007-2017》。文章中回顾了2007-2017年中文分词的各种方法,现分享给大家。


【内容简介】

本文回顾中文分词在2007-2017十年间的技术进展,尤其是自深度学习渗透到自然语言处理以来的 主要工作。我们的基本结论是,中文分词的监督机器学习方法在从非神经网络方法到神经网络方法的 迁移中尚未展示出明显的技术优势。中文分词的机器学习模型的构建,依然需要平衡考虑已知词和未 登录词的识别问题。尽管迄今为止深度学习应用于中文分词尚未能全面超越传统的机器学习方法,我 们审慎推测,由于人工智能联结主义基础下的神经网络模型有潜力契合自然语言的内在结构分解方式, 从而有效建模,或能在不远将来展示新的技术进步成果。


请关注专知公众号(点击上方蓝色专知关注

  • 后台回复“中文分词” 就可以获取中文分词十年又回顾: 2007-2017的下载链接~ 

  • 原文链接:https://arxiv.org/abs/1901.06079v1


【作者简介】

  • 赵海, 男,上海交通大学计算机科学与工程系博士、副教授,从事计算语言学等教研,多次获自然语言处理(包括中文分词等)国际评测第一名。 

  • 蔡登,男,上海交通大学计算机科学与工程系硕士研究生。 

  • 黄昌宁,男,教授、高级研究员,国内计算语言学奠基者之一,是清华大学计算机科学与技术系和亚洲微软研究院两处学术重镇的自然语言处理组创始人,有众多学生为学界翘楚。 

  • 揭春雨,男,副教授,清华大学计算机科学与技术系毕业,谢菲尔德大学计算机科学博士,目前香港城市大学翻译及语言学任教,博、硕士导师,获终身教职,主要从事计算语言学和术语 学等教研工作


【部分内容】

-END-

专 · 知

专知《深度学习:算法到实战》课程全部完成!470+位同学在学习,现在报名,限时优惠!网易云课堂人工智能畅销榜首位!


请加专知小助手微信(扫一扫如下二维码添加),咨询《深度学习:算法到实战》参团限时优惠报名~

欢迎微信扫一扫加入专知人工智能知识星球群,获取专业知识教程视频资料和与专家交流咨询!

请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料!

点击“阅读原文”,了解报名专知《深度学习:算法到实战》课程

登录查看更多
8

相关内容

将一个汉字序列切分成一个一个单独的词,以达到电脑自动识别语句含义的效果。
基于多头注意力胶囊网络的文本分类模型
专知会员服务
76+阅读 · 2020年5月24日
深度学习自然语言处理概述,216页ppt,Jindřich Helcl
专知会员服务
209+阅读 · 2020年4月26日
专知会员服务
102+阅读 · 2020年3月12日
机器翻译深度学习最新综述
专知会员服务
96+阅读 · 2020年2月20日
电力人工智能发展报告,33页ppt
专知会员服务
119+阅读 · 2019年12月25日
【资源】NLP深度生成模型会议/论文列表
专知
9+阅读 · 2019年11月19日
【资源推荐】复旦大学NLP上手教程
专知
41+阅读 · 2019年5月15日
NLP 分词的那些事儿
人工智能头条
8+阅读 · 2019年3月15日
已删除
将门创投
8+阅读 · 2019年1月30日
Arxiv
6+阅读 · 2019年8月22日
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
Physical Primitive Decomposition
Arxiv
4+阅读 · 2018年9月13日
Arxiv
21+阅读 · 2018年8月30日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
10+阅读 · 2018年2月17日
VIP会员
相关论文
Arxiv
6+阅读 · 2019年8月22日
Mesh R-CNN
Arxiv
4+阅读 · 2019年6月6日
Physical Primitive Decomposition
Arxiv
4+阅读 · 2018年9月13日
Arxiv
21+阅读 · 2018年8月30日
Arxiv
8+阅读 · 2018年5月15日
Arxiv
10+阅读 · 2018年2月17日
Top
微信扫码咨询专知VIP会员