成人网站PornHub爬虫分享(一天可爬取500万以上的视频)

2018 年 5 月 23 日 互联网架构师

相关阅读:

阿里P7/P8学习路线图——技术封神之路

为什么百度留不住人

宁愿月薪1万招新人,却不愿给月薪5千的老员工涨薪


PornHubBot


源代码地址:https://github.com/xiyouMc/WebHubBot


  • PornHubBot项目主要是爬取全球最大成人网站PornHub的视频标题、时长、mp4链接、封面URL和具体的PornHub链接

  • 项目爬的是PornHub.com,结构简单,速度飞快

  • 爬取PornHub视频的速度可以达到500万/天以上。具体视个人网络情况,因为我是家庭网络,所以相对慢一点。

  • 10个线程同时请求,可达到如上速度。若个人网络环境更好,可启动更多线程来请求,具体配置方法见 [启动前配置]


环境、架构


开发语言: Python2.7

开发环境: MacOS系统、4G内存

数据库: MongoDB

  • 主要使用 scrapy 爬虫框架

  • 从Cookie池和UA池中随机抽取一个加入到Spider

  • start_requests 根据 PorbHub 的分类,启动了5个Request,同时对五个分类进行爬取。

  • 并支持分页爬取数据,并加入到待爬队列。

使用说明


启动前配置

  • 安装MongoDB,并启动,不需要配置

  • 安装Scrapy

  • 安装Python的依赖模块:pymongo、json、requests

  • 根据自己需要修改 Scrapy 中关于 间隔时间、启动Requests线程数等得配置


启动

  • python PornHub/quickstart.py

运行截图











数据库说明


数据库中保存数据的表是 PhRes。以下是字段说明:


video_title:视频的标题,并作为唯一标识.link_url:视频调转到PornHub的链接 image_url:视频的封面链接 video_duration:视频的时长,以 s 为单位 quality_480p: 视频480p的 mp4 下载地址


链接:http://www.techug.com/post/pornhubbot.html

看完本文有收获?请转发分享给更多人


欢迎关注“互联网架构师”,我们分享最有价值的互联网技术干货文章,助力您成为有思想的全栈架构师,我们只聊互联网、只聊架构,不聊其他!打造最有价值的架构师圈子和社区。

本公众号覆盖中国主要首席架构师、高级架构师、CTO、技术总监、技术负责人等人 群。分享最有价值的架构思想和内容。打造中国互联网圈最有价值的架构师圈子。

  • 长按下方的二维码可以快速关注我们

  • 如想加群讨论学习,请点击右下角的“加群学习”菜单入群

登录查看更多
16

相关内容

专知会员服务
179+阅读 · 2020年6月21日
【实用书】Python爬虫Web抓取数据,第二版,306页pdf
专知会员服务
115+阅读 · 2020年5月10日
【阿里技术干货】知识结构化在阿里小蜜中的应用
专知会员服务
95+阅读 · 2019年12月14日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
94+阅读 · 2019年12月4日
【综述】视频摘要最新综述文章,附45页综述全文下载
专知会员服务
33+阅读 · 2019年9月20日
GitHub 热门:各大网站的 Python 爬虫登录汇总
机器学习算法与Python学习
9+阅读 · 2019年3月20日
抖音爬虫
专知
3+阅读 · 2019年2月11日
手把手教你用R语言制作网络爬虫机器人(一)
R语言中文社区
4+阅读 · 2019年1月26日
我是一个爬虫
码农翻身
12+阅读 · 2018年6月4日
干货 | Python 爬虫的工具列表大全
机器学习算法与Python学习
10+阅读 · 2018年4月13日
爱奇艺路演PPT曝光:下周在纳斯达克上市
腾讯科技
3+阅读 · 2018年3月19日
Python3爬虫之入门和正则表达式
全球人工智能
7+阅读 · 2017年10月9日
【宁波站】网络爬虫与文本挖掘
数萃大数据
4+阅读 · 2017年7月19日
Precise Detection in Densely Packed Scenes
Arxiv
3+阅读 · 2019年4月8日
Arxiv
10+阅读 · 2019年1月24日
Arxiv
5+阅读 · 2018年12月18日
Arxiv
8+阅读 · 2018年1月12日
VIP会员
相关资讯
GitHub 热门:各大网站的 Python 爬虫登录汇总
机器学习算法与Python学习
9+阅读 · 2019年3月20日
抖音爬虫
专知
3+阅读 · 2019年2月11日
手把手教你用R语言制作网络爬虫机器人(一)
R语言中文社区
4+阅读 · 2019年1月26日
我是一个爬虫
码农翻身
12+阅读 · 2018年6月4日
干货 | Python 爬虫的工具列表大全
机器学习算法与Python学习
10+阅读 · 2018年4月13日
爱奇艺路演PPT曝光:下周在纳斯达克上市
腾讯科技
3+阅读 · 2018年3月19日
Python3爬虫之入门和正则表达式
全球人工智能
7+阅读 · 2017年10月9日
【宁波站】网络爬虫与文本挖掘
数萃大数据
4+阅读 · 2017年7月19日
相关论文
Precise Detection in Densely Packed Scenes
Arxiv
3+阅读 · 2019年4月8日
Arxiv
10+阅读 · 2019年1月24日
Arxiv
5+阅读 · 2018年12月18日
Arxiv
8+阅读 · 2018年1月12日
Top
微信扫码咨询专知VIP会员