文本情感分析的预处理

2018 年 3 月 8 日 Datartisan数据工匠 Nitin Panwar

点击上方

Datartisan数据工匠

可以订阅哦!

作者简介:Nitin Panwar,英特尔数据科学家,研究领域主要为数据科学、机器学习和数据分析。

文章地址:http://nitin-panwar.github.io/Text-prepration-before-Sentiment-analysis/ 有删改

 

在分析文本数据中的情感之前,有必要对文本进行预处理,本文介绍并梳理了需要执行的文本清洗与预处理步骤:

一、 去除数字

数字在文本分析中一般没有意义,所以在进一步分析前需要去除它们。

 

二、去除链接地址

链接地址显然也需要在进一步分析前被去掉,可以使用正则表达式达到这个目的。

 

三、去除停用词

停用词是在每个句子中都很常见,但对分析没有意义的词。比如英语中的“is”、“but”、“shall”、“by”,汉语中的“的”、“是”、“但是”等。语料中的这些词可以通过匹配文本处理程序包中的停用词列表来去除。

 

四、词干化

词干化,指的是将单词的派生形式缩减为其词干的过程,已经有许多词干化的方法。词干化主要使用在英文中,如“programming”、“programmer”、“programmed” 、“programmable”等词可以词干化为“program”,目的是将含义相同、形式不同的词归并,方便词频统计。

 

五、后缀丢弃算法

后缀丢弃算法(Suffix-dropping algorithms)可以丢弃一个单词的后缀部分。如前文提到的“programming”、“programmer”、“programmed”、“programmable”等词可以词干化为其词根“program”,但像“rescuing”、“rescue”、“rescued”这样的词则被词干化为“rescu”,其并非一个单词或词根,而是将后缀丢弃后得到的形式。

 

六、词形还原算法


词形还原算法(Lemmatisation algorithms)将语料中的每个词还原为其原形,或者能表达完整语义的一般形式,如“better”还原为“good”、“running”还原为“walk”等。该算法的实现基于对文本的理解、词性标注和对应语言的词库等。

七、n-gram分析

n-gram分析指的是将字符串按一定最小单元分割为长度为n的连续子串,保留最有意义的子串,以方便后续分析。如当n=1时(称为unigram),以单个字母为最小单元,单词“flood”可以被分割为“f”、“l”、“o”、“o”、“d”。对于更大的n,比如n=5,在单词“flooding”的五元连续子串中,显然需要保留“flood”。不过在n=4时,“flooding”中的“ding”也可能被判断为一个有意义的词。对于一个完整的句子而言,常用单词作为最小分割单元。

 

八、去除标点符号

标点符号显然对文本分析没有帮助,因此需要去除。

 

九、去除空白字符

可以使用正则表达式去掉词前后的空白字符,只保留词本身。

 

十、检查特殊字符

在进行了去除空白字符、数字和标点符号等操作后,一些形式特殊的链接地址等额外内容可能仍然未被去除,需要对处理后的语料再进行一次检查,并用正则表达式去除它们。


更多课程和文章尽在微信号:

「datartisan数据工匠」

登录查看更多
17

相关内容

文本情感分析:又称意见挖掘、倾向性分析等。简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。互联网(如博客和论坛以及社会服务网络如大众点评)上产生了大量的用户参与的、对于诸如人物、事件、产品等有价值的评论信息。这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。基于此,潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
190+阅读 · 2020年6月29日
【实用书】Python机器学习Scikit-Learn应用指南,247页pdf
专知会员服务
255+阅读 · 2020年6月10日
【实用书】Python数据科学从零开始,330页pdf
专知会员服务
139+阅读 · 2020年5月19日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
160+阅读 · 2020年5月14日
【干货书】流畅Python,766页pdf,中英文版
专知会员服务
223+阅读 · 2020年3月22日
图神经网络表达能力的研究综述,41页pdf
专知会员服务
168+阅读 · 2020年3月10日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
NLP 与 NLU:从语言理解到语言处理
AI研习社
15+阅读 · 2019年5月29日
R语言自然语言处理:情感分析
R语言中文社区
16+阅读 · 2019年4月16日
Python文本预处理:步骤、使用工具及示例
中文NLP用什么?中文自然语言处理的完整机器处理流程
人工智能头条
61+阅读 · 2018年9月5日
干货 | 自然语言处理(5)之英文文本挖掘预处理流程
机器学习算法与Python学习
7+阅读 · 2018年4月5日
自然语言处理(4)之中文文本挖掘流程详解(小白入门必读)
机器学习算法与Python学习
5+阅读 · 2017年12月22日
一文学会最常见的10种NLP处理技术(附资源&代码)
使用 TensorFlow 做文本情感分析
Datartisan数据工匠
15+阅读 · 2017年11月16日
python文本相似度计算
北京思腾合力科技有限公司
24+阅读 · 2017年11月6日
A Survey on Edge Intelligence
Arxiv
49+阅读 · 2020年3月26日
Arxiv
4+阅读 · 2018年5月24日
Arxiv
3+阅读 · 2018年5月20日
Arxiv
4+阅读 · 2018年4月29日
Arxiv
3+阅读 · 2018年3月2日
Arxiv
23+阅读 · 2017年3月9日
VIP会员
相关VIP内容
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
190+阅读 · 2020年6月29日
【实用书】Python机器学习Scikit-Learn应用指南,247页pdf
专知会员服务
255+阅读 · 2020年6月10日
【实用书】Python数据科学从零开始,330页pdf
专知会员服务
139+阅读 · 2020年5月19日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
160+阅读 · 2020年5月14日
【干货书】流畅Python,766页pdf,中英文版
专知会员服务
223+阅读 · 2020年3月22日
图神经网络表达能力的研究综述,41页pdf
专知会员服务
168+阅读 · 2020年3月10日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
相关资讯
NLP 与 NLU:从语言理解到语言处理
AI研习社
15+阅读 · 2019年5月29日
R语言自然语言处理:情感分析
R语言中文社区
16+阅读 · 2019年4月16日
Python文本预处理:步骤、使用工具及示例
中文NLP用什么?中文自然语言处理的完整机器处理流程
人工智能头条
61+阅读 · 2018年9月5日
干货 | 自然语言处理(5)之英文文本挖掘预处理流程
机器学习算法与Python学习
7+阅读 · 2018年4月5日
自然语言处理(4)之中文文本挖掘流程详解(小白入门必读)
机器学习算法与Python学习
5+阅读 · 2017年12月22日
一文学会最常见的10种NLP处理技术(附资源&代码)
使用 TensorFlow 做文本情感分析
Datartisan数据工匠
15+阅读 · 2017年11月16日
python文本相似度计算
北京思腾合力科技有限公司
24+阅读 · 2017年11月6日
相关论文
Top
微信扫码咨询专知VIP会员