淘宝、知乎、豆瓣......18个网站的Python爬虫登录汇总,都在这个开源项目里

2019 年 4 月 10 日 大数据技术

来自:开源最前线(ID:OpenSourceTop)

项目地址:https://github.com/CriseLYJ/awesome-python-login-model


如果你从事数据科学领域,那么获取数据对于你来说就不可或缺,网络爬虫这一关你必须得过,而说到爬虫,大多数人想到的就是Python,因为python不仅编写调试方便,而且能够快速入门,最主要的是相关的类库十分丰富


今天,要和大家推荐的这个项目就是和Python编程有关的,这个项目介绍了如何用 Python 登录各大网站,并用简单的爬虫获取一些有用数据,目前该项目已经提供了知乎、B 站、和豆瓣等 18 个网站的登录方法。



模拟登陆基本采用的是直接登录或者使用selenium+webdriver的方式,有的网站直接登录难度很大,比如qq空间,bilibili等如果采用selenium就相对轻松一些。


每一个网站都会有对应的登录代码,有的还有数据的爬取代码。下面我们以淘宝为例:

  • 爬取淘宝各子标签,按销量排名商品信息,按分类保存至MongoDB

  • 通过pandas进行数据分析

  • 将商品在各省分布、销量排行、地图分布等通过matplotlib绘图显示



以上是淘宝爬虫相关的文件:

  • taobao.py为模拟登录

  • 剩下的文件为爬虫


模拟登陆的代码如下:



Bilibili自动登录测试正常,成功率98%



如果你还想查看更多示例,可以前往GitHub详情页,而且创建者也鼓励广大开发者提 Issue 或 Pull Requests。



目前该项目已经获得 6732 个Star,1127 个Fork(GitHub地址:https://github.com/CriseLYJ/awesome-python-login-model



●编号795,输入编号直达本文

●输入m获取文章目录

推荐↓↓↓

Python编程

更多推荐25个技术类公众微信

涵盖:程序人生、算法与数据结构、黑客技术与网络安全、大数据技术、前端开发、Java、Python、Web开发、安卓开发、iOS开发、C/C++、.NET、Linux、数据库、运维等。

登录查看更多
2

相关内容

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
190+阅读 · 2020年6月29日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
115+阅读 · 2020年5月10日
【资源】100+本免费数据科学书
专知会员服务
105+阅读 · 2020年3月17日
算法与数据结构Python,369页pdf
专知会员服务
160+阅读 · 2020年3月4日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
211+阅读 · 2020年2月21日
【推荐系统/计算广告/机器学习/CTR预估资料汇总】
专知会员服务
86+阅读 · 2019年10月21日
Keras作者François Chollet推荐的开源图像搜索引擎项目Sis
专知会员服务
29+阅读 · 2019年10月17日
GitHub 热门:各大网站的 Python 爬虫登录汇总
机器学习算法与Python学习
9+阅读 · 2019年3月20日
Python用法速查网站
Python程序员
17+阅读 · 2018年12月16日
我是一个爬虫
码农翻身
12+阅读 · 2018年6月4日
3月份GitHub上最热门的开源项目
大数据技术
3+阅读 · 2018年4月10日
国内各大平台的推荐算法,看到360的时候笑喷了……
黑客技术与网络安全
5+阅读 · 2018年3月28日
各平台的推荐算法,太贴切了!
算法与数据结构
4+阅读 · 2018年1月23日
各厂推荐算法!
程序猿
17+阅读 · 2018年1月13日
Arxiv
91+阅读 · 2020年2月28日
Knowledge Flow: Improve Upon Your Teachers
Arxiv
5+阅读 · 2019年4月11日
Arxiv
6+阅读 · 2018年4月21日
Arxiv
3+阅读 · 2018年3月13日
Arxiv
7+阅读 · 2017年12月28日
VIP会员
相关VIP内容
【实用书】学习用Python编写代码进行数据分析,103页pdf
专知会员服务
190+阅读 · 2020年6月29日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
115+阅读 · 2020年5月10日
【资源】100+本免费数据科学书
专知会员服务
105+阅读 · 2020年3月17日
算法与数据结构Python,369页pdf
专知会员服务
160+阅读 · 2020年3月4日
【2020新书】数据科学:十大Python项目,247页pdf
专知会员服务
211+阅读 · 2020年2月21日
【推荐系统/计算广告/机器学习/CTR预估资料汇总】
专知会员服务
86+阅读 · 2019年10月21日
Keras作者François Chollet推荐的开源图像搜索引擎项目Sis
专知会员服务
29+阅读 · 2019年10月17日
相关资讯
GitHub 热门:各大网站的 Python 爬虫登录汇总
机器学习算法与Python学习
9+阅读 · 2019年3月20日
Python用法速查网站
Python程序员
17+阅读 · 2018年12月16日
我是一个爬虫
码农翻身
12+阅读 · 2018年6月4日
3月份GitHub上最热门的开源项目
大数据技术
3+阅读 · 2018年4月10日
国内各大平台的推荐算法,看到360的时候笑喷了……
黑客技术与网络安全
5+阅读 · 2018年3月28日
各平台的推荐算法,太贴切了!
算法与数据结构
4+阅读 · 2018年1月23日
各厂推荐算法!
程序猿
17+阅读 · 2018年1月13日
Top
微信扫码咨询专知VIP会员