Python网络爬虫与信息抽取笔记07 Beautiful Soup库

【导读】我们在上一节的内容中已经为大家对爬虫实践进行讨论,这一节将初步学习Beautiful Soup库。本文内容讨论了Beautiful Soup库的四个内容:Beautiful Soup库安装、查看网页源代码,BeautifulSoup库查看网页源代码以及BeautifulSoup库的基本元素。话不多说,让我们一起学习这些内容吧。


春节充电系列:李宏毅2017机器学习课程学习全部笔记


Python网络爬虫与信息抽取笔记01 课程框架和Python IDE工具

Python网络爬虫与信息抽取笔记02 requests库入门

Python网络爬虫与信息抽取笔记03 HTTP协议介绍

Python网络爬虫与信息抽取笔记04 Robots协议

Python网络爬虫与信息抽取笔记05 爬虫实战1

Python网络爬虫与信息抽取笔记06 爬虫实战2


视频网址:

https://www.bilibili.com/video/av9784617?from=search&seid=240663710546169136

http://www.icourse163.org/course/BIT-1001870001?tid=1001962001


Python网络爬虫与信息抽取07 Beautiful Soup库

 

1.Beautiful Soup库安装




使用Beautiful Soup库需要先安装Beautiful Soup库


如果你想详细了解Beautiful Soup库,可以登其官方网站详细了解。

https://www.crummy.com/software/BeautifulSoup/



其实安装Beautiful Soup库只需要一个指令就行了:pip install beautifulsoup4



2.查看网页源代码




我们用http://python123.io/ws/demo.html进行测试


这个网站的源代码如图所示



其实看网站的源代码很容易,鼠标放在网页页面,点击鼠标右键,然后点击查看源代码

我们就会看到网站源码


可以用r.text查看源码内容


3.BeautifulSoup库查看网页源代码





用指令from bs4 import BeautifulSoup导入beautiful soup库

然后用指令soup=BeautifulSoup(demo,”html.parser”)制作soup.


我们可以用print(soup.prettify())指令查看网页源代码的结构内容



4.Beautiful Soup库基本元素




接下来介绍Beautiful Soup库的基本元素


Beautiful Soup库实际上是一个对“标签树”进行各种操作的功能库,其目的是为了简化操作、充分利用“标签树”的信息



标签的成分有名称name与属性attribute,注意名称name是前后成对出现



对于Beautiful Soup库的引用,使用指令from bs4 import BeautifulSoup,注意BeautifulSoup bs4里面的一个类


一个BeautifulSoup类对应一个标签树


Beautiful Soup库解析器有四个,其中第一个解析器最为常用



Beautiful Soup类的基本元素有五个,下面表格有详细介绍


回到之前的测试网站



我们用soup.title可以查看html的标题标签内容



用soup.a可以查看.a标签内容也就是链接标签内容


soup.a.parent.name查看其父标签名字


tag.attrs指令看其属性


我们可以发现其是一个字典,可以用字典的方式对每一个属性做信息的提取


soup.p.string可以查看标签的字符串


下图b标签里面是注释,注意注释的结构 <!—


参考链接:

http://www.icourse163.org/course/BIT-1001870001?tid=1001962001

 更多教程资料请访问:人工智能知识资料全集

-END-

专 · 知

人工智能领域主题知识资料查看与加入专知人工智能服务群

【专知AI服务计划】专知AI知识技术服务会员群加入人工智能领域26个主题知识资料全集获取

[点击上面图片加入会员]

请PC登录www.zhuanzhi.ai或者点击阅读原文,注册登录专知,获取更多AI知识资料

请加专知小助手微信(扫一扫如下二维码添加),加入专知主题群(请备注主题类型:AI、NLP、CV、 KG等)交流~

关注专知公众号,获取人工智能的专业知识!

点击“阅读原文”,使用专知

展开全文
Top
微信扫码咨询专知VIP会员