【免费】python爬虫相关知识资源-CSDN文库

共1个文件

pdf：1个

python

爬虫

需积分: 0 43 浏览量 2023-04-28 10:11:31 上传评论收藏 360KB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

python爬虫相关知识.rar （1个子文件）

python爬虫相关知识.pdf 396KB

python爬虫

1.ProxyHandler处理器（代理）：

1. 代理的原理：在请求目的网站之前，先请求代理服务器，然后让代理服务器去请求目的网站，代理

服务器拿到目的网站的数据后，再转发给我们的代码。

2. http://httpbin.org：这个网站可以方便的查看http请求的一些参数。

3. 在代码中使用代理：

使用 urllib.request.ProxyHandler ，传入一个代理，这个代理是一个字典，字典的key依

赖于代理服务器能够接收的类型，一般是 http 或者 https ，值是 ip:port 。

使用上一步创建的 handler ，以及 request.build_opener 创建一个 opener 对象。

使用上一步创建的 opener ，调用 open 函数，发起请求。

示例代码如下：



2. requests请求

发送get请求：

发送get请求，直接调用 requests.get 就可以了。想要发送什么类型的请求，就调用什么方法。

response的一些属性：

from urllib import request

url = 'http://httpbin.org/ip'

# 1. 使用ProxyHandler，传入代理构建一个handler

handler = request.ProxyHandler({"http":"223.241.78.43:8010"})

# 2. 使用上面创建的handler构建一个opener

opener = request.build_opener(handler)

# 3. 使用opener去发送一个请求

resp = opener.open(url)

print(resp.read())

response = requests.get("https://www.baidu.com/")

import requests

kw = {'wd':'中国'}

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)

AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

# params 接收一个字典或者字符串的查询参数，字典类型自动转换为url编码，不需要urlencode()

response = requests.get("http://www.baidu.com/s", params = kw, headers =

headers)

# 查看响应内容，response.text 返回的是Unicode格式的数据

print(response.text)

response.text和response.content的区别：

1. response.content：这个是直接从网络上面抓取的数据。没有经过任何解码。所以是一个bytes类

型。其实在硬盘上和在网络上传输的字符串都是bytes类型。

2. response.text：这个是str的数据类型，是requests库将response.content进行解码的字符串。解

码需要指定一个编码方式，requests会根据自己的猜测来判断编码的方式。所以有时候可能会猜测

错误，就会导致解码产生乱码。这时候就应该使用 response.content.decode('utf-8') 进行手

动解码。

发送post请求：

发送post请求非常简单。直接调用 requests.post 方法就可以了。

如果返回的是json数据。那么可以调用 response.json() 来将json字符串转换为字典或者列表。

使用代理：

在请求方法中，传递 proxies 参数就可以了。

处理cookie：

如果想要在多次请求中共享cookie。那么应该使用session。示例代码如下：

3.BeautifulSoup：

# 查看响应内容，response.content返回的字节流数据

print(response.content)

# 查看完整url地址

print(response.url)

# 查看响应头部字符编码

print(response.encoding)

# 查看响应码

print(response.status_code)

import requests

url = "http://www.renren.com/PLogin.do"

data = {"email":"970138074@qq.com",'password':"pythonspider"}

headers = {

 'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36

(KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36"

}

session = requests.Session()

session.post(url,data=data,headers=headers)

response = session.get('http://www.renren.com/880151247/profile')

with open('renren.html','w',encoding='utf-8') as fp:

 fp.write(response.text)

find_all的使用：

1. 在提取标签的时候，第一个参数是标签的名字。然后如果在提取标签的时候想要使用标签属性进行

过滤，那么可以在这个方法中通过关键字参数的形式，将属性的名字以及对应的值传进去。或者是

使用 attrs 属性，将所有的属性以及对应的值放在一个字典中传给 attrs 属性。

2. 有些时候，在提取标签的时候，不想提取那么多，那么可以使用 limit 参数。限制提取多少个。

find与find_all的区别：

1. find：找到第一个满足条件的标签就返回。说白了，就是只会返回一个元素。

2. find_all:将所有满足条件的标签都返回。说白了，会返回很多标签（以列表的形式）。

使用find和find_all的过滤条件：

1. 关键字参数：将属性的名字作为关键字参数的名字，以及属性的值作为关键字参数的值进行过滤。

2. attrs参数：将属性条件放到一个字典中，传给attrs参数。

获取标签的属性：

1. 通过下标获取：通过标签的下标的方式。

2. 通过attrs属性获取：示例代码：

string和strings、stripped_strings属性以及get_text方法：

1. string：获取某个标签下的非标签字符串。返回来的是个字符串。如果这个标签下有多行字符，那

么就不能获取到了。

2. strings：获取某个标签下的子孙非标签字符串。返回来的是个生成器。

3. stripped_strings：获取某个标签下的子孙非标签字符串，会去掉空白字符。返回来的是个生成

器。

4. get_text：获取某个标签下的子孙非标签字符串。不是以列表的形式返回，是以普通字符串返回。

CSS选择器：

1. 根据标签的名字选择，示例代码如下：

2. 根据类名选择，那么要在类的前面加一个点。示例代码如下：

3. 根据id名字选择，那么要在id的前面加一个#号。示例代码如下：

href = a['href']

href = a.attrs['href']

 background-color: pink;

}

.line{

 background-color: pink;

}

#box{

 background-color: pink;

}

评论收藏

内容反馈

只是、追念ζ

粉丝: 0
资源: 60

python爬虫相关知识

python爬虫相关知识.pdf

Python爬虫基础知识和反爬机制（案例）

python爬虫基本知识

Python爬虫基础知识

python爬虫数据可视化分析

python爬虫基础知识&源码.zippython爬虫基础知识&源码.zippython爬虫基础知识&源码.zip

python爬虫视频教程案例百度网盘链接.docx

"玩转Python爬虫——入门与实践"课程源码

python爬虫基础知识.zip

python爬虫基础知识&amp;源码.zip

python爬虫实用知识库分享

python爬虫基础知识&源码.zip

python爬虫教程从入门到精通

Python爬虫高级开发工程师5期-视频教程网盘链接提取码下载.txt

Python爬虫开发经验整理 Python Web数据爬虫知识巩固 用Python爬虫抓站的一些技巧 共9页.pdf

python的爬虫技术归纳总结

Python 爬虫基础知识.md

大家说的Python爬虫是指什么？学会Python爬虫需要了解的五大方面.docx

基于Python+pytorch的图像处理+附完整代码图像处理，能够轻松实现图像的读取、显示、裁剪等还有机器学习等操作

python大作业 含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar

《点燃我温暖你》中李峋的同款爱心代码

Python金融量化的高级库：TA-Lib-0.4.24（包含python3.7、3.8、3.9、3.10的32位和64位版本）

第十五届蓝桥杯大赛软件赛省赛-PythonB组题目

大麦网抢票脚本【Python脚本】

计算机语言python基本运算和语法

人脸识别系统OpenCV+dlib+python（含数据库）Pyqt5界面设计 项目源码 毕业设计

YOLOv8-火焰识别（火焰数据集+代码+GUI界面+内置训练好的模型文件）

Python学习笔记(干货) 中文PDF完整版.pdf

Python教程2020版 完全入门 达到Python工程师水平 笔记+代码+课件+资料

最新资源

python爬虫基础知识&源码.zip

Python爬虫开发经验整理 Python Web数据爬虫知识巩固用Python爬虫抓站的一些技巧共9页.pdf

python大作业含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar

人脸识别系统OpenCV+dlib+python（含数据库）Pyqt5界面设计项目源码毕业设计

Python教程2020版完全入门达到Python工程师水平笔记+代码+课件+资料