没有合适的资源?快使用搜索试试~ 我知道了~
第三关:爬虫库BeautifulSoup – 0入门到进阶(附练习题) | Python爬虫
11 下载量 29 浏览量
2020-12-21
05:13:14
上传
评论
收藏 584KB PDF 举报
温馨提示
试读
6页
Python爬虫 – 专栏链接 手把手教你如何入门,如何进阶。 目录 1. BeautifulSoup是什么? 2. BeautifulSoup怎么用? 2.1 解析数据 2.2 提取数据 2.3 find() 方法 和 find_all() 方法 2.4 Tag标签 和 css 选择器 练习题 联系我们,一起学Python吧 1. BeautifulSoup是什么? 我们先熟悉下爬虫的四个步骤:1、获取数据。2、解析数据。3、提取数据。4、储存数据。 第1关的requests库帮我们搞定了爬虫第1步——获取数据;第2关的HTML知识,是进行爬虫必不可少的背景知识,能辅助我们解
资源详情
资源评论
资源推荐
第三关:爬虫库第三关:爬虫库BeautifulSoup – 0入门到进阶(附练习题)入门到进阶(附练习题) | Python爬虫爬虫
Python爬虫爬虫 – 专栏链接专栏链接
手把手教你如何入门,如何进阶。
目录目录
1. BeautifulSoup是什么?
2. BeautifulSoup怎么用?
2.1 解析数据
2.2 提取数据
2.3 find() 方法 和 find_all() 方法
2.4 Tag标签 和 css 选择器
练习题
联系我们,一起学Python吧
1. BeautifulSoup是什么?是什么?
我们先熟悉下爬虫的四个步骤四个步骤:1、获取数据。、获取数据。2、解析数据。、解析数据。3、提取数据。、提取数据。4、储存数据。、储存数据。
第1关的requests库帮我们搞定了爬虫第1步——获取数据;第2关的HTML知识,是进行爬虫必不可少的背景知识,能辅助我们解析和提取数据。
而本关学习目标:学会使用 BeautifulSoup 解析解析和提取提取网页中的数据。
使用 BeautifulSoup 库 前需要先安装,可以通过在命令行中输入:
pip install beautifulsoup4
2. BeautifulSoup怎么用?怎么用?
2.1 解析数据解析数据
我们以豆瓣读书 Top250 为例,它的网址是:https://book.douban.com/top250。
我们来看看如何将其网页源代码解析成 BeautifulSoup 对象对象:
import requests
from bs4 import BeautifulSoup
# 反爬策略之一,下一关重点说明反爬
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:75.0) Gecko/20100101 Firefox/75.0'
}
res = requests.get('https://book.douban.com/top250', headers=headers)
soup = BeautifulSoup(res.text, 'html.parser')
注意:这里代码中多了一串代码,headers数组,这是反爬策略中的一种,下一关重点说明,如果不加这个数据,爬取不到我们要的数据。headers的作用是:伪装成浏览器,去访问
该网页地址,这个数据可以通用的,可以去网上任意找个别人的,也可以自己打开浏览器查看,如下图:
我们通过 from bs4 import BeautifulSoup 语句导入 BeautifulSoup,然后使用 BeautifulSoup(res.text, 'html.parser') 语句将网页源代码的字符串形式解析成了 BeautifulSoup 对对
象象。
创建 BeautifulSoup 对象时需要传入两个参数,第一个参数是要解析的 HTML 文本文本,即网站源代码的字符串形式(res.text)。第二个参数是解析 HTML 的解析器,html.parser 是
Python 中内置的解析器,较为简单方便,本课程中都将使用它。
2.2 提取数据提取数据
res = requests.get('https://book.douban.com/top250', headers=headers)
print(type(res.text))
# 输出: 字符串
# 转为 BeautifulSoup 对象
soup = BeautifulSoup(res.text, 'html.parser')
print(type(soup))
# 输出: 对象
weixin_38693506
- 粉丝: 5
- 资源: 966
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0