爬虫 (计算机网络)

实验心理学

有哪些「神奇」的数据获取方式？

本题已加入圆桌 » 心理学实验室，更多「实验心理学」相关的话题欢迎关注讨论。刚开始进行经济学研究，已经感受到能够找到合适的 data 有多重（jia…

关注者

23,660

被浏览

2,178,712

登录后你可以

不限量看优质回答私信答主深度交流精彩内容一键收藏

查看全部 117 个回答

Chrome扩展web scraper ，不用写代码抓取数据，这里以抓取豆瓣电影排行榜为例。

只要建立sitemap即可抓取相应的数据，无需写代码即可抓取95%以上的网站数据（比如博客列表，知乎回答，微博评论等）， Chrome扩展地址 https://chrome.google.com/webstore/detail/web-scraper-free-web-scra/jnhgnonknehpejjnehehllkliplmbmhn ，先安装好扩展。

使用web scraper抓取数据步骤为：创建 sitemap，新建 selector （抓取规则），启动抓取程序，导出为 csv文件。

下面开始，先打开谷歌浏览器控制台，可以看到个web scraper 标签，下面有sitemaps，sitemap，create new sitemap ，点击create新建一个爬虫抓取任务。

豆瓣电影的分页链接为 https://movie.douban.com/top250?start=0&filter=，共10页，所以URL填入 https://movie.douban.com/top250?start=[0-250:25]&filter= ，name随意填一个。

然后点击add new selector 添加新的选择器。

给id起个名，type为 element ，点击 select 选中第一部电影《肖申克的救赎》，可以看到网页标红了。

然后再选择第二条，可以看到下面的电影都选中了，点击 done selecting 就好了。

接着点击 element preview 预览下可以看到电影元素都抓取到了，因为一页有多部电影还要选中 Multiple 。

然后进入刚才建的 element 里新加选择器。

共有5个选择器，分别为电影名，豆瓣链接，电影排名，电影简介，豆瓣评分。

可以预览下新建的电影名选择器看看效果。

点击selector graph 可以看到抓取的选择器关系图。

选择器都建好后点击 scrape 开始抓取数据了。

这时候浏览器会自动弹出窗口抓取数据，不用管它，抓取完后它会自动关闭。

很快抓取完了。

再预览下抓取的数据是否正常。

确认没问题后点击 export data as CSV 导出为CSV文件。

用Excel打开CSV文件，看到抓取的电影排序乱了。

没关系，选中电影排名这列，选择升序排列。

最后抓取的250条豆瓣电影数据结果就是这样了，搞定。

更多详情见文章：

发布于 2021-04-21 22:37

查看全部 117 个回答