没有合适的资源?快使用搜索试试~ 我知道了~
5.0前言对于自动化办公而言,网络数据的批量获取完数据可以节约相当的时间,因此爬虫在自动化办公中占据了一个比较重要的位置。因而本节针对爬虫项目进行一个介绍,力求
资源详情
资源评论
资源推荐
Task 05爬虫入门与综合应用
Task 05爬虫入门与综合应用
5.0 前言
5.1 Requests简介
5.1.1 访问百度
5.1.2 下载txt文件
5.1.3 下载图片
5.2 HTML解析和提取
5.3 BeautifulSoup简介
5.4 实践项目1:自如公寓数据抓取
5.5 实践项目2:36kr信息抓取与邮件发送
5.0 前言
对于自动化办公而言,网络数据的批量获取完数据可以节约相当的时间,因此爬虫在自动化办公中占据
了一个比较重要的位置。
因而本节针对爬虫项目进行一个介绍,力求最大程度还原实际的办公场景。
5.1 Requests简介
Requests是一款目前非常流行的http请求库,使用python编写,能非常方便的对网页Requests进行爬
取,也是爬虫最常用的发起请求第三方库。
安装方法:
5.1.1 访问百度
试一试对百度首页进行数据请求:
项目难度:⭐
pip install requests
或者conda安装
conda install requests
re.status_code 响应的HTTP状态码
re.text 响应内容的字符串形式
rs.content 响应内容的二进制形式
rs.encoding 响应内容的编码
res.text 返回的是服务器响应内容的字符串形式,也就是文本内容
5.1.2 下载txt文件
例:用爬虫下载孔乙己的文章,网址是https://apiv3.shanbay.com/codetime/articles/mnvdu
我们打开这个网址 可以看到是鲁迅的文章
我们尝试着用爬虫保存文章的内容
项目难度:⭐
re.txt就是网页中的内容,将内容保存到txt文件中
5.1.3 下载图片
re.text用于文本内容的获取、下载
re.content用于图片、视频、音频等内容的获取、下载
项目难度:⭐⭐
re.encoding 爬取内容的编码形似,常见的编码方式有 ASCII、GBK、UTF-8 等。如果用和文件编码不
同的方式去解码,我们就会得到一些乱码。
5.2 HTML解析和提取
浏览器工作原理:
import requests
# 发出http请求
re=requests.get("https://www.baidu.com")
# 查看响应状态
print(re.status_code)
#输出:200
#200就是响应的状态码,表示请求成功
#我们可以通过res.status_code的值来判断请求是否成功。
import requests
# 发出http请求
re = requests.get('https://apiv3.shanbay.com/codetime/articles/mnvdu')
# 查看响应状态
print('网页的状态码为%s'%re.status_code)
with open('鲁迅文章.txt', 'w') as file:
# 将数据的字符串形式写入文件中
print('正在爬取小说')
file.write(re.text)
import requests
# 发出http请求
#下载图片
res=requests.get('https://img-blog.csdnimg.cn/20210424184053989.PNG')
# 以二进制写入的方式打开一个名为 info.jpg 的文件
with open('datawhale.png','wb') as ff:
# 将数据的二进制形式写入文件中
print('爬取图片')
ff.write(res.content)
向浏览器中输入某个网址,浏览器回向服务器发出请求,然后服务器就会作出响应。其实,服务器返回
给浏览器的这个结果就是HTML代码,浏览器会根据这个HTML代码将网页解析成平时我们看到的那样
比如我们来看看百度的html页面
将会看到很多带有标签的信息
HTML(Hyper Text Markup Language)是一种超文本标记语言,是由一堆标记组成。
例如
上面即为一个最简单的html,我们所需要的信息就是夹在标签中
想对html有根据深入的了解,可以html菜鸟教程
https://www.runoob.com/html/html-tutorial.html
那么我们如何解析html页面呢?
5.3 BeautifulSoup简介
我们一般会使用BeautifulSoup这个第三方库
安装方法:
我们来解析豆瓣读书 Top250
它的网址是:https://book.douban.com/top250
项目难度:⭐⭐
import requests
res=requests.get('https://baidu.com')
print(res.text)
<html>
<head>
<title>我的网页</title>
</head>
<body>
Hello,World
</body>
</html>
pip install bs4
或
conda install bs4
剩余12页未读,继续阅读
曹多鱼
- 粉丝: 20
- 资源: 314
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0