想挖掘Twitter、Facebook、Google等流行社会媒体数据?这本书再合适不过!

2018 年 11 月 6 日 图灵教育

2013年,Twitter宣称其平台每天发布的推文超过5亿条。2015年第二季度,Facebook宣称其已拥有近15亿月活跃用户。2015年,你应该很感兴趣的、规模小一个数量级的Stack Overflow宣称,自网站运行以来,平台上已经积累了超过1000万个编程问题。


在描述社会媒体的流行程度时,上面这些数字仅仅是冰山一角。近年来,越来越多的人通过不同的平台分享信息,社会媒体(比如微博,头条)的流行程度猛增。


公司用社会媒体平台进行品牌营销,专业人士在线维护其公众形象并用社会媒体拓展人脉,而普通用户则在社会媒体上讨论任意主题。


越多的人,就意味着有越多的数据,越多的数据意味着有越多的机遇。



1

社会媒体下的机遇


开发数据挖掘系统的主要机遇是从数据中获取有用的洞见。其目的是用数据挖掘技术回答有意义的(有时是很难的)问题,从而帮助我们增长有关特定领域的知识。


例如,在线零售商店可以应用数据挖掘来了解顾客的购物行为。通过分析数据,店主就可以基于顾客的购买习惯(例如,购买了A商品的用户一般还会购买B商品)向他们推荐产品。这样的推荐通常可以提供更好的用户体验,提升用户满意度,而回报则是更好的销售业绩。


不同领域的机构都可以用数据挖掘技术来改善业务。具体示例如下所示。


  • 银行:

    • 识别忠诚客户,并为他们提供有针对性的促销方式

    • 识别虚假交易的模式,以减少经济损失

  • 医药:

    • 理解病人的行为,以预测其诊疗时间

    • 根据病人的历史数据支持医生的诊断决策

  • 零售:

    • 理解购物模式,以改善顾客体验

    • 提高市场营销的精准性和有效性

    • 分析实时的交通数据,以找到配送食物的最快路径


以上应用场景如何映射到社会媒体领域?解决该问题的核心在于用户如何通过社会媒体平台分享数据。很多机构不再局限于分析能够直接获取的数据,还会用社会媒体平台获取更多数据。


可以用设计优良、无关语言的API搜集社会媒体数据。社会媒体平台通常会为开发者提供一个Web API,以便将他们的应用与特定的社会媒体功能整合起来。


 API

API(application programming interface,应用编程接口)是一组操作定义和协议,描述了一个软件组件(如库或远程服务)的行为,其中包括它允许的操作、输入和输出。在使用第三方API时,开发者无须担心组件的内部实现,只需要关心如何使用该接口。



2

社会媒体挖掘流程


下面简要介绍构建一个社会媒体挖掘应用的整个流程。


整个流程分为以下步骤:

(1) 鉴权

(2) 数据收集

(3) 数据清洗和预处理

(4) 建模和分析

(5) 结果呈现


图1-2展现了该流程的概览。


图1-2 社会媒体挖掘的整个流程


通常用名为OAuth(Open Authorization,开放授权)的行业标准执行鉴权步骤。这个过程涉及三个角色:用户、消费者(我们的应用)和资源提供方(社会媒体平台)。该过程的步骤如下所示。


(1) 用户同意并授权第三方应用接入社会媒体平台。

(2) 用户并不是直接为第三方应用提供社会媒体的密码,资源提供方会生成一个令牌和一个密码,并将其交给第三方应用。第三方应用在每次请求时都需要使用这两个信息,以防伪造。

(3) 然后用户用该令牌重定向到资源提供方,该过程需要确认向第三方应用开放了获取用户数据的授权。

(4) 根据社会媒体平台的性质,还需要确认第三方应用能否代表用户来执行任意操作,如发布一个更新、分享一个链接等。

(5) 资源提供方为第三方应用发布一个有效的令牌。

(6) 然后该令牌可以返回给用户,以便用户确认接入权限。


图1-3展示了OAuth过程并标注了上述各个步骤。需要记住的是,交换凭证(用户名/密码)仅仅发生于步骤(3)和步骤(4)中的用户和资源提供方之间。所有其他交换都是由令牌驱动的。


图1-3 OAuth过程


如果想深入了解OAuth,请关注人民邮电出版社即将出版的《OAuth 2实战》(http://www.ituring.com.cn/book/2013)。——编者注


从用户的角度来看,当访问我们的Web应用并点击用Facebook(或Twitter、Google+等)登录这个按钮时,这个复杂的过程就会发生。然后用户必须确认他们要为我们的应用授权,并且所有过程都在底层完成。


从开发者的角度来看,Python生态系统的美妙之处在于,它为大多数社会媒体平台提供了非常成熟的库,其中就包含了鉴权过程的实现。作为开发者,一旦你为自己的应用注册了目标服务,平台将为其提供必要的授权令牌。图1-4展示了一个名为Intro to Text Mining的自定义Twitter应用的截图。在Keys and Access Tokens配置页面,开发者可以看到API密钥和密码,以及访问令牌和访问令牌密码。


图1-4 名为Intro to Text Mining的Twitter应用的配置页面,其中包含了开发者在其应用中使用的所有授权令牌


数据的收集、清洗和预处理步骤也依赖于社会媒体平台。特别是数据收集步骤和初始授权是捆绑在一起的,我们只能下载已授权获取的数据。另一方面,清洗和预处理为数据建模和分析做准备,以产生有关这些数据的洞见。


3

Python社会媒体挖掘


如果想挖掘一些流行的社会媒体数据,这有本书讲了挖掘流行社会媒体数据的全过程。



作者:Marco Bonzanini
译者:陈小莉,陶俊杰
定价:69.00元


原版亚马逊全五星好评

Python数据处理实用参考手册

获取、存储、分析和可视化社交数据的一站式解决方案


Python是非常适合数据科学家在中小型数据集上建造原型、可视化和分析数据的编程语言。上面这本书可以帮你获取和分析来自各大社会媒体网站的数据,展示如何使用科学的Python工具来挖掘Stack Exchange等流行社交网站。


主要内容


第1章

社会媒体、社交数据和Python。

这一章将介绍用Python进行社会媒体数据挖掘的基本概念。通过简要介绍机器学习、自然语言处理、社会网络分析和数据可视化,这一章将介绍Python主要的数据科学工具,以及Python开发环境的安装方法。


第2章

Twitter数据挖掘——标签、话题和时间序列。

这一章介绍如何用Twitter数据进行数据挖掘。首先设置一个与Twitter API交互的Twitter应用,然后介绍如何用流API获取数据,以及如何对话题标签和推文进行频率分析。此外还将介绍一些时间序列分析方法,以理解推文随时间的分布情况。


第3章

Twitter用户、粉丝和社区。

这一章将继续介绍Twitter挖掘,重点关注用户及用户间的互动。我们将演示如何挖掘用户间的联系与对话,还将介绍一些有趣的应用,其中包括用户聚类(分组),以及用户影响力与参与度的度量方法。


第4章

Facebook帖子、页面和用户互动。

这一章将重点介绍Facebook和Facebook Graph API。首先介绍Facebook Graph API的交互方式,包括隐私和安全问题,然后用示例演示如何挖掘用户信息页和Facebook页面的帖子。我们将用时间序列和用户参与度的概念来分析用户的互动行为,其中包括评论、喜欢和Reactions。


第5章

Google+话题分析。

这一章将介绍Google的社交网络。首先介绍如何接入Google的中心化平台,然后用示例演示如何在Google+中搜索内容和用户。此外,还会演示如何将Google API的数据嵌入一个由Python的微框架Flask建立的Web应用。


第6章

Stack Exchange提问和回答。

这一章将介绍问答类主题网站,并将Stack Exchange网络作为主要示例。你将学会如何搜索这个网络中不同站点的用户和内容,尤其是Stack Overflow。借助它们的存档数据和在线处理功能,这一章还将介绍监督机器学习方法在文本分类方面的应用,并演示如何在实时应用中嵌入机器学习模型。


第7章

博客、RSS、维基百科和自然语言处理。

这一章将介绍文本分析方法。Web中充满了文本挖掘的机会,这一章将演示如何与WordPress.com API、Blogger API、RSS订阅和维基百科API等数据源进行交互。之后利用文本数据,对之前简单提及的自然语言处理的基本概念进行正式阐述与扩展。然后介绍信息抽取过程,并用示例演示如何从自由文本中抽取实体。


第8章

挖掘所有数据。

在最常用的社交网络之外还有许多数据挖掘机会。这一章用示例演示了如何挖掘YouTube、GitHub和Yelp数据,并探讨了当平台没有提供API时,如何构建自己的API客户端。


第9章

关联数据和语义网。

这一章将简要介绍语义网及相关技术。探讨的话题包括关联数据、微格式和资源描述框架(resource description framework,RDF),还用示例演示了如何从DBpedia和维基百科中挖掘语义信息。



如果你对以下三个方面感兴趣,这本书就很适合你。


  • 社会媒体API:每个平台都提供了不同的数据获取方式。理解如何与它们交互可以回答以下问题:如何获取数据?可以获取哪种类型的数据?这些问题非常重要,因为如果没有获取到数据,就无法进行数据分析。每一章会重点介绍一个不同的社会媒体平台,并详细介绍如何与相关的API进行交互。

  • 数据挖掘技巧:仅仅是从API获取数据并没有太大价值。下一步需要回答:可以用这些数据做什么?每一章将介绍对相应数据进行不同类型的分析所需掌握的概念,以及为什么这些分析能够带来价值。本书仅对相关理论进行浅显的介绍,深入介绍请参见相应的学术著作。本书的目的是为读者提供一些可以迅速上手的示例。

  • Python的数据科学工具:搞清楚可以用数据做什么后,最后一个问题是:如何做?Python是数据科学的主流语言之一,其语法和语义简单易懂,并且拥有丰富的科学计算生态系统,不仅对初学者来说学习曲线非常平滑,而且为专家提供了专业的工具。本书介绍了用于科学计算的主要Python库,如NumPy、pandas、NetworkX、scikit-learn、NLTK等。实例将提供精简的代码,以帮助你完成各种有趣的社会媒体数据分析。


原版评价


原书名:Mastering Social Media Mining with Python

在亚马逊收获了全五星评价。



还有父母把这本书当生日礼物送给自己的女儿。



图灵社区试读


京东购


当当购




文末福利

你最想挖掘哪家的数据?想用作什么用途?你是从事数据方面的工作还是单纯对数据感兴趣?

本期送出3本《Python社会媒体挖掘》,在精选评论中随机挑选,截止到11月9日14:00。

欢迎大家畅所欲言。


☟ 更多数据相关图书

登录查看更多
0

相关内容

Twitter(推特)是一个社交网络及微博客服务的网站。它利用无线网络,有线网络,通信技术,进行即时通讯,是微博客的典型应用。
【2020新书】实战R语言4,323页pdf
专知会员服务
102+阅读 · 2020年7月1日
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
93+阅读 · 2020年6月28日
商业数据分析,39页ppt
专知会员服务
162+阅读 · 2020年6月2日
【WWW2020-微软】理解用户行为用于文档推荐
专知会员服务
36+阅读 · 2020年4月5日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
216+阅读 · 2020年2月21日
【2020新书】图机器学习,Graph-Powered Machine Learning
专知会员服务
343+阅读 · 2020年1月27日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
143+阅读 · 2019年10月10日
在 Google 工作六年半后,我还是选择离职了
开源中国
4+阅读 · 2018年10月21日
如何成为一名商业产品经理?
产品100干货速递
6+阅读 · 2018年10月18日
网络舆情分析
计算机与网络安全
20+阅读 · 2018年10月18日
15款免费预测分析软件!收藏好,别丢了!
七月在线实验室
11+阅读 · 2018年2月27日
AI世界:2018年八大趋势
CSDN云计算
6+阅读 · 2017年10月20日
【社交网络】一文读懂社交网络分析
产业智能官
15+阅读 · 2017年10月14日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
这位程序员为什么要弃用Facebook?
CSDN
5+阅读 · 2017年7月14日
Arxiv
15+阅读 · 2020年2月6日
Arxiv
11+阅读 · 2019年6月19日
Arxiv
8+阅读 · 2019年5月20日
Arxiv
5+阅读 · 2017年7月23日
Arxiv
5+阅读 · 2015年9月14日
VIP会员
相关VIP内容
【2020新书】实战R语言4,323页pdf
专知会员服务
102+阅读 · 2020年7月1日
【2020新书】从Excel中学习数据挖掘,223页pdf
专知会员服务
93+阅读 · 2020年6月28日
商业数据分析,39页ppt
专知会员服务
162+阅读 · 2020年6月2日
【WWW2020-微软】理解用户行为用于文档推荐
专知会员服务
36+阅读 · 2020年4月5日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
216+阅读 · 2020年2月21日
【2020新书】图机器学习,Graph-Powered Machine Learning
专知会员服务
343+阅读 · 2020年1月27日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
143+阅读 · 2019年10月10日
相关资讯
在 Google 工作六年半后,我还是选择离职了
开源中国
4+阅读 · 2018年10月21日
如何成为一名商业产品经理?
产品100干货速递
6+阅读 · 2018年10月18日
网络舆情分析
计算机与网络安全
20+阅读 · 2018年10月18日
15款免费预测分析软件!收藏好,别丢了!
七月在线实验室
11+阅读 · 2018年2月27日
AI世界:2018年八大趋势
CSDN云计算
6+阅读 · 2017年10月20日
【社交网络】一文读懂社交网络分析
产业智能官
15+阅读 · 2017年10月14日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
这位程序员为什么要弃用Facebook?
CSDN
5+阅读 · 2017年7月14日
Top
微信扫码咨询专知VIP会员