没有合适的资源？快使用搜索试试~ 我知道了~

文库首页安全技术网络安全Task05 爬虫入门与综合应用1

Task05 爬虫入门与综合应用1

爬虫

需积分: 0 0 下载量 7 浏览量 2022-08-03 20:14:05 上传评论收藏 849KB PDF 举报

温馨提示

试读

13页

5.0前言对于自动化办公而言，网络数据的批量获取完数据可以节约相当的时间，因此爬虫在自动化办公中占据了一个比较重要的位置。因而本节针对爬虫项目进行一个介绍，力求

资源详情

资源评论

资源推荐

Task 05爬虫入门与综合应用

5.0 前言

5.1 Requests简介

5.1.1 访问百度

5.1.2 下载txt文件

5.1.3 下载图片

5.2 HTML解析和提取

5.3 BeautifulSoup简介

5.4 实践项目1：自如公寓数据抓取

5.5 实践项目2：36kr信息抓取与邮件发送

5.0 前言

对于自动化办公而言，网络数据的批量获取完数据可以节约相当的时间，因此爬虫在自动化办公中占据

了一个比较重要的位置。

因而本节针对爬虫项目进行一个介绍，力求最大程度还原实际的办公场景。

5.1 Requests简介

Requests是一款目前非常流行的http请求库，使用python编写，能非常方便的对网页Requests进行爬

取，也是爬虫最常用的发起请求第三方库。

安装方法：

5.1.1 访问百度

试一试对百度首页进行数据请求：

项目难度：⭐

pip install requests

或者conda安装

conda install requests

re.status_code 响应的HTTP状态码

re.text 响应内容的字符串形式

rs.content 响应内容的二进制形式

rs.encoding 响应内容的编码

res.text 返回的是服务器响应内容的字符串形式，也就是文本内容

5.1.2 下载txt文件

例：用爬虫下载孔乙己的文章，网址是https://apiv3.shanbay.com/codetime/articles/mnvdu

我们打开这个网址可以看到是鲁迅的文章

我们尝试着用爬虫保存文章的内容

项目难度：⭐

re.txt就是网页中的内容，将内容保存到txt文件中

5.1.3 下载图片

re.text用于文本内容的获取、下载

re.content用于图片、视频、音频等内容的获取、下载

项目难度：⭐⭐

re.encoding 爬取内容的编码形似，常见的编码方式有 ASCII、GBK、UTF-8 等。如果用和文件编码不

同的方式去解码，我们就会得到一些乱码。

5.2 HTML解析和提取

浏览器工作原理：

import requests

# 发出http请求

re=requests.get("https://www.baidu.com")

# 查看响应状态

print(re.status_code)

#输出：200

#200就是响应的状态码，表示请求成功

#我们可以通过res.status_code的值来判断请求是否成功。

import requests

# 发出http请求

re = requests.get('https://apiv3.shanbay.com/codetime/articles/mnvdu')

# 查看响应状态

print('网页的状态码为%s'%re.status_code)

with open('鲁迅文章.txt', 'w') as file:

# 将数据的字符串形式写入文件中

print('正在爬取小说')

file.write(re.text)

import requests

# 发出http请求

#下载图片

res=requests.get('https://img-blog.csdnimg.cn/20210424184053989.PNG')

# 以二进制写入的方式打开一个名为 info.jpg 的文件

with open('datawhale.png','wb') as ff:

 # 将数据的二进制形式写入文件中

 print('爬取图片')

 ff.write(res.content)

向浏览器中输入某个网址，浏览器回向服务器发出请求，然后服务器就会作出响应。其实，服务器返回

给浏览器的这个结果就是HTML代码，浏览器会根据这个HTML代码将网页解析成平时我们看到的那样

比如我们来看看百度的html页面

将会看到很多带有标签的信息

HTML(Hyper Text Markup Language)是一种超文本标记语言，是由一堆标记组成。

例如

上面即为一个最简单的html，我们所需要的信息就是夹在标签中

想对html有根据深入的了解，可以html菜鸟教程

https://www.runoob.com/html/html-tutorial.html

那么我们如何解析html页面呢？

5.3 BeautifulSoup简介

我们一般会使用BeautifulSoup这个第三方库

安装方法：

我们来解析豆瓣读书 Top250

它的网址是：https://book.douban.com/top250

项目难度：⭐⭐

import requests

res=requests.get('https://baidu.com')

print(res.text)

<html>

<head>

 <title>我的网页</title>

</head>

<body>

 Hello，World

</body>

</html>

pip install bs4

或

conda install bs4

剩余12页未读，继续阅读

内容反馈

曹多鱼

粉丝: 20
资源: 314

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

前往需求广场，查看用户热搜

Task05 爬虫入门与综合应用1

评论0

最新资源

Task05 爬虫入门与综合应用1

评论0

Task05_Prostate.zip

NLPCC2014task1和task2数据集资源.zip

MSD医学图像数据集，Task02-Heart和Task04-Hippocampus

大模型理论基础打卡Task05

go-task task计划任务

六年级下册英语教案－Unit4 General Revision1 Task 9-Task 10 ｜人教精通版.doc

task task 实体

Maven+SpringMVC+SpringTask定时任务

独立任务Independent Task Scheduling

Multi-Task Compressive Sensing

Task 1 Python基础入门：从变量到异常处理.pdf

大量Task创建导致UI失去响应

Task05 Python模拟卷1

MySQL天池训练营Task_05

1k_coding task

Getting Started with Grunt: The JavaScript Task Runner

State Decision Task活动详解

Google Task桌面版，基于Adobe Air平台

在MTK中添加TASK与常用函数分析.rar

BurpLoaderKeygen.jar.zip

最新版ISO/IEC 27001:2022、ISO 27002:2022中英文合集

Goby红队版-win-x64-2.4.7版本

Chrome Header Editor 插件

ISO SAE 21434-2021 中文版.pdf

基于网络的入侵检测系统源码+数据集+详细文档（高分毕业设计）.zip

OpenVAS GVM 中文翻译补丁

安全认证cisp教材全套

STM32F103C8T6核心板-电路原理图1.PDF

最新资源