2019年了,中文分词到底该怎么做?中文分词十年方法大盘点

【导读】基本上所有的中文自然语言处理任务,第一步都需要先分词。中文分词是中文NLP的基础任务和研究方向。小编前些日子,在Arxiv上看到了蔡登同学开放的《中文分词十年又回顾: 2007-2017》。文章中回顾了2007-2017年中文分词的各种方法,现分享给大家。


【内容简介】

本文回顾中文分词在2007-2017十年间的技术进展,尤其是自深度学习渗透到自然语言处理以来的 主要工作。我们的基本结论是,中文分词的监督机器学习方法在从非神经网络方法到神经网络方法的 迁移中尚未展示出明显的技术优势。中文分词的机器学习模型的构建,依然需要平衡考虑已知词和未 登录词的识别问题。尽管迄今为止深度学习应用于中文分词尚未能全面超越传统的机器学习方法,我 们审慎推测,由于人工智能联结主义基础下的神经网络模型有潜力契合自然语言的内在结构分解方式, 从而有效建模,或能在不远将来展示新的技术进步成果。


请关注专知公众号(点击上方蓝色专知关注

  • 后台回复“中文分词” 就可以获取中文分词十年又回顾: 2007-2017的下载链接~ 

  • 原文链接:https://arxiv.org/abs/1901.06079v1


【作者简介】

  • 赵海, 男,上海交通大学计算机科学与工程系博士、副教授,从事计算语言学等教研,多次获自然语言处理(包括中文分词等)国际评测第一名。 

  • 蔡登,男,上海交通大学计算机科学与工程系硕士研究生。 

  • 黄昌宁,男,教授、高级研究员,国内计算语言学奠基者之一,是清华大学计算机科学与技术系和亚洲微软研究院两处学术重镇的自然语言处理组创始人,有众多学生为学界翘楚。 

  • 揭春雨,男,副教授,清华大学计算机科学与技术系毕业,谢菲尔德大学计算机科学博士,目前香港城市大学翻译及语言学任教,博、硕士导师,获终身教职,主要从事计算语言学和术语 学等教研工作


【部分内容】

-END-

专 · 知

专知《深度学习:算法到实战》课程全部完成!470+位同学在学习,现在报名,限时优惠!网易云课堂人工智能畅销榜首位!


请加专知小助手微信(扫一扫如下二维码添加),咨询《深度学习:算法到实战》参团限时优惠报名~

欢迎微信扫一扫加入专知人工智能知识星球群,获取专业知识教程视频资料和与专家交流咨询!

请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料!

点击“阅读原文”,了解报名专知《深度学习:算法到实战》课程

展开全文
Top
微信扫码咨询专知VIP会员