【宁波站】网络爬虫与文本挖掘

2017 年 7 月 19 日 数萃大数据 白夜

        随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。网络爬虫,追求大的覆盖性与内容的精准性,按照一定的规则,自动地抓取万维网信息的程序或者脚本,能为用户提供大量的网络数据信息。同时,当今大数据的迅猛发展,数据并不仅仅以“数值”的方式存在,越来越多的文本信息等待人们去分析与利用,文本挖掘基于此背景孕育而生。它主要通过各种算法对文本进行数据挖掘,提取有用的信息,为使用者抓取价值与利润。

       网络爬虫与文本挖掘是数据从业人员掌握基于RPython的统计分析与机器学习知识与技能之后必须要掌握的更具有挑战性的技能,这类数据分析师深受网站与信息类公司的欢迎。鉴于对未来市场的评估与分析,上海数萃大数据科技有限公司决定于2017922-25日在浙江宁波举办为期三天的《网络爬虫与文本挖掘》培训班。本次培训主要基于Python语言通过具体的例子和代码由浅入深地介绍网络爬虫工具库、数据存储、网络爬虫的提升、分布式爬虫、爬虫框架、文本挖掘涉及的工具和分析方法等。培训具体内容如下:


培训课程

 模块一: 网络爬虫基础

1讲:技术准备

1. 网络通信基础

2. HTTP协议简介

3. Web开发知识介绍

4. 网站分析知识介绍

2讲:开发环境与语言

1. 开发环境安装与使用 (Anaconda套件与PyCharm)

2. Python基础数据结构(元组/列表/字符串/字典)

3. Python基础语法(条件/循环/函数//模块)

4. 常用Python库使用案例分享

5. Python技巧与实践分享

模块二: 数据爬取与存贮

3讲:网络爬虫工具库

1. 基础Python爬虫库(urllib/Requests

2. 认识正则表达式

3. “漂亮”的爬虫库-Beautiful Soup-静态网页爬取案例分享

4. Selenium与“幻影”浏览器- PhantomJS

5. AjaxDHTML网站爬取

6. 动态网页爬取案例分享

7. 利用API进行数据采集

4讲:网络爬虫存储 

1. 文件读取与保存

2. 关系数据库存储-MySQL

3. 爬虫配合MySQL存储案例分享

4. 分布式存储-NoSQL数据库

5. 爬虫配合MongoDB存储案例分享

6. HDFS简介

模块三: 网络爬虫提升

5讲:分布式爬虫

1. 多线程爬虫

2. 多进程爬虫

3. 爬虫队列设计

4. 集群化爬取

6讲:网络爬虫框架

1. Python网络爬虫框架介绍

2. Scrapy基本使用

3. Scrapy进阶使用

4. 爬虫框架使用案例分享

7讲:网络爬虫突破

1. 模拟登录

2. 常见验证码突破

3. 爬虫代理池

4. 各类网页内容处理

5. 爬取移动端APP技巧

6. 设计健壮的网络爬虫

8讲:基于R的爬虫与比较

1. 再议爬取与解析

2. 经典组合:RCurlXML

3. 爬虫新贵:rvest

4. 基于PythonR的爬虫对比

模块四: 文本挖掘

9讲:文本挖掘技术基础

1. 文本挖掘全流程概述

2. 自然语言处理库(NLTK)

3. TextBlob文本处理库介绍

4. 中文分词介绍(jieba)

5. 词云介绍

10讲:文本挖掘技术进阶

1.文本挖掘预处理技术

2.文本特征处理

3. 文本聚类

4. 主题模型

5. 基于深度学习的文本挖掘

6. 文本挖掘案例分享

 

讲师介绍

尹志

       数据科学家,数萃大数据学院讲师,浙江大学物理学博士,青年学者,浙江宁波工程学院深度学习研究中心负责人;某网络科技上市公司大数据总监,10+年软件开发数据产品经验,熟悉R\Python\Javascript等多种编程语言;目前研究集中在推荐系统、文本挖掘、神经网络等机器学习领域;具有丰富的统计建模、数据挖掘、大数据技术授课经验。

靳军

       数萃金牌讲师,未来科学家计划核心成员。精通python, 熟练掌握R,有3年 的Rpython语言编程经验。研究兴趣集中在机器学习、网络爬虫、文本数据分析、sparkR及分布式计算,专注于用python进行量化策略构建。


培训对象

•想使用Python爬取数据的工程师和网络爬虫爱好者

•想进行自然语言处理的数据从来人员

希望了解和学习使用Python进行网络爬虫、文本数据分析的编程爱好者

•高校数据挖掘与机器学习任课老师

培训安排

•培训地点:(宁波)维也纳国际酒店(机场店), 宁波石碶雅戈尔大道488号,鄞州大道地铁站B出口。

报到:2017922

授课:2017923-25

报名方式

报名请点击下方“阅读原文”

报名截止日期:2017921

联系方式

联系人:李璇,电话 18930310912

联系邮箱:info@shvad.com

培训费用

前三个模块2800/人,模块四1500 元,全部模块4200 元(含培训费、教材费、证书费、中餐费、场地费及增值税发票等相关费用),住宿统一安排,费用自理。

优惠: 老学员8折,学生7折,新学员(包括学生)5人以上9折。同时,报名学员前30名均有9.5折优惠

 

 

 

上海数萃大数据科技有限公司

2017718






数萃大数据:sh-vad
一个专注做大数据培训、资料分享的平台



登录查看更多
5

相关内容

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常被称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本,已被广泛应用于互联网领域。搜索引擎使用网络爬虫抓取Web网页、文档甚至图片、音频、视频等资源,通过相应的索引技术组织这些信息,提供给搜索用户进行查询。网络爬虫也为中小站点的推广提供了有效的途径。
【实用书】Python技术手册,第三版767页pdf
专知会员服务
234+阅读 · 2020年5月21日
【实用书】Python数据科学从零开始,330页pdf
专知会员服务
141+阅读 · 2020年5月19日
Python导论,476页pdf,现代Python计算
专知会员服务
260+阅读 · 2020年5月17日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
161+阅读 · 2020年5月14日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
117+阅读 · 2020年5月10日
【书籍推荐】简洁的Python编程(Clean Python),附274页pdf
专知会员服务
179+阅读 · 2020年1月1日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
38+阅读 · 2019年8月18日
文本分析与可视化
Python程序员
9+阅读 · 2019年2月28日
手把手教你用R语言制作网络爬虫机器人(一)
R语言中文社区
4+阅读 · 2019年1月26日
干货 | 自然语言处理(5)之英文文本挖掘预处理流程
机器学习算法与Python学习
7+阅读 · 2018年4月5日
自然语言处理(4)之中文文本挖掘流程详解(小白入门必读)
机器学习算法与Python学习
5+阅读 · 2017年12月22日
教你用Python爬虫股票评论,简单分析股民用户情绪
数据派THU
10+阅读 · 2017年12月12日
Python3爬虫之入门和正则表达式
全球人工智能
7+阅读 · 2017年10月9日
【大数据】数据挖掘与数据分析知识流程梳理
产业智能官
12+阅读 · 2017年9月22日
如何用Python从海量文本抽取主题?
AI研习社
7+阅读 · 2017年7月6日
Single-frame Regularization for Temporally Stable CNNs
Arxiv
8+阅读 · 2018年6月19日
Arxiv
3+阅读 · 2018年3月13日
Arxiv
5+阅读 · 2015年9月14日
VIP会员
相关VIP内容
【实用书】Python技术手册,第三版767页pdf
专知会员服务
234+阅读 · 2020年5月21日
【实用书】Python数据科学从零开始,330页pdf
专知会员服务
141+阅读 · 2020年5月19日
Python导论,476页pdf,现代Python计算
专知会员服务
260+阅读 · 2020年5月17日
干净的数据:数据清洗入门与实践,204页pdf
专知会员服务
161+阅读 · 2020年5月14日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
117+阅读 · 2020年5月10日
【书籍推荐】简洁的Python编程(Clean Python),附274页pdf
专知会员服务
179+阅读 · 2020年1月1日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
95+阅读 · 2019年12月4日
相关资讯
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
38+阅读 · 2019年8月18日
文本分析与可视化
Python程序员
9+阅读 · 2019年2月28日
手把手教你用R语言制作网络爬虫机器人(一)
R语言中文社区
4+阅读 · 2019年1月26日
干货 | 自然语言处理(5)之英文文本挖掘预处理流程
机器学习算法与Python学习
7+阅读 · 2018年4月5日
自然语言处理(4)之中文文本挖掘流程详解(小白入门必读)
机器学习算法与Python学习
5+阅读 · 2017年12月22日
教你用Python爬虫股票评论,简单分析股民用户情绪
数据派THU
10+阅读 · 2017年12月12日
Python3爬虫之入门和正则表达式
全球人工智能
7+阅读 · 2017年10月9日
【大数据】数据挖掘与数据分析知识流程梳理
产业智能官
12+阅读 · 2017年9月22日
如何用Python从海量文本抽取主题?
AI研习社
7+阅读 · 2017年7月6日
Top
微信扫码咨询专知VIP会员