没有合适的资源？快使用搜索试试~ 我知道了~

文库首页后端Python简单详细介绍了python爬虫基础.docx

简单详细介绍了python爬虫基础.docx

python

爬虫

需积分: 5 0 下载量 130 浏览量 2024-05-03 10:30:58 上传评论收藏 34KB DOCX 举报

温馨提示

试读

11页

Python非常适合用来开发网页爬虫，理由如下： 1、抓取网页本身的接口相比与其他静态编程语言，如java，c#，c++，python抓取网页文档的接口更简洁；相比其他动态脚本语言，如perl，shell，python的urllib包提供了较为完整的访问网页文档的API。（当然ruby也是很好的选择）此外，抓取网页有时候需要模拟浏览器的行为，很多网站对于生硬的爬虫抓取都是封杀的。这是我们需要模拟user agent的行为构造合适的请求，譬如模拟用户登陆、模拟session/cookie的存储和设置。在python里都有非常优秀的第三方包帮你搞定，如Requests，mechanize 2、网页抓取后的处理抓取的网页通常需要处理，比如过滤html标签，提取文本等。python的beautifulsoap提供了简洁的文档处理功能，能用极短的代码完成大部分文档的处理。其实以上功能很多语言和工具都能做，但是用python能够干得最快，最干净。

资源推荐

资源详情

资源评论

前言

Python 非常适合用来开发网页爬虫，理由如下：

1、抓取网页本身的接口

相比与其他静态编程语言，如 java，c#，c++，python 抓取网页文档的接口更简洁；相

比其他动态脚本语言，如 perl，shell，python 的 urllib 包提供了较为完整的访问网页文

档的 API。（当然 ruby 也是很好的选择）

此外，抓取网页有时候需要模拟浏览器的行为，很多网站对于生硬的爬虫抓取都是封杀

的。这是我们需要模拟 user agent 的行为构造合适的请求，譬如模拟用户登陆、模拟

session/cookie 的存储和设置。在 python 里都有非常优秀的第三方包帮你搞定，如

Requests，mechanize

2、网页抓取后的处理

抓取的网页通常需要处理，比如过滤 html 标签，提取文本等。python 的 beautifulsoap

提供了简洁的文档处理功能，能用极短的代码完成大部分文档的处理。

其实以上功能很多语言和工具都能做，但是用 python 能够干得最快，最干净。

Life is short, you need python.

PS：python2.x 和 python3.x 有很大不同，本文只讨论 python3.x 的爬虫实现方法。

爬虫架构

架构组成

URL 管理器：管理待爬取的 url 集合和已爬取的 url 集合，传送待爬取的 url 给网页下载

器。

网页下载器（urllib）：爬取 url 对应的网页，存储成字符串，传送给网页解析器。

网页解析器（BeautifulSoup）：解析出有价值的数据，存储下来，同时补充 url 到 URL

管理器。

运行流程

URL 管理器

基本功能

� 添加新的 url 到待爬取 url 集合中。

� 判断待添加的 url 是否在容器中（包括待爬取 url 集合和已爬取 url 集合）。

� 获取待爬取的 url。

� 判断是否有待爬取的 url。

� 将爬取完成的 url 从待爬取 url 集合移动到已爬取 url 集合。

存储方式

1、内存（python 内存）

待爬取 url 集合：set()

已爬取 url 集合：set()

2、关系数据库（mysql）

urls(url, is_crawled)

3、缓存（redis）

待爬取 url 集合：set

已爬取 url 集合：set

大型互联网公司，由于缓存数据库的高性能，一般把 url 存储在缓存数据库中。小型公

司，一般把 url 存储在内存中，如果想要永久存储，则存储到关系数据库中。

网页下载器（urllib）

将 url 对应的网页下载到本地，存储成一个文件或字符串。

基本方法

新建 baidu.py，内容如下：

import urllib.request

response = urllib.request.urlopen('http://www.baidu.com')

buff = response.read()

html = buff.decode("utf8")

print(html)

命令行中执行 python baidu.py，则可以打印出获取到的页面。

剩余10页未读，继续阅读

评论收藏

内容反馈

资源评论

资源反馈

评论星级较低，若资源使用遇到问题可联系上传者，3个工作日内问题未解决可申请退款~

技术分享官

粉丝: 1356
资源: 152

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

前往需求广场，查看用户热搜

简单详细介绍了python爬虫基础.docx

Python爬虫示例.docx

实用文档之Python网络爬虫实习报告-python实习报告.docx

山东建筑大学计算机网络课程设计基于Python的网络爬虫设计.docx

实验：CentOS7配置Python爬虫环境.docx

Python爬虫详解.docx

山东建筑工程大学计算机网络专业课程设计基于Python的网络爬虫设计.docx

Python爬虫总结.docx

python爬虫实战.docx

十分钟能学会的简单python爬虫精选.docx

基于python的网络爬虫设计.docx

山东建筑大学计算机网络课程设计《基于Python的网络爬虫设计》.docx

Python爬虫实战.docx

python爬虫讲解.docx

python爬虫.docx

基于Python+pytorch的图像处理+附完整代码图像处理，能够轻松实现图像的读取、显示、裁剪等还有机器学习等操作

python大作业 含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar

《点燃我温暖你》中李峋的同款爱心代码

第十五届蓝桥杯大赛软件赛省赛-PythonB组题目

Python金融量化的高级库：TA-Lib-0.4.24（包含python3.7、3.8、3.9、3.10的32位和64位版本）

大麦网抢票脚本【Python脚本】

Python数据分析项目实践，包括数据读取、评估、清洗、分析、可视化机器学习相关内容等

YOLOv8-火焰识别（火焰数据集+代码+GUI界面+内置训练好的模型文件）

人脸识别系统OpenCV+dlib+python（含数据库）Pyqt5界面设计 项目源码 毕业设计

人体姿态检测

Python学习笔记(干货) 中文PDF完整版.pdf

Python教程2020版 完全入门 达到Python工程师水平 笔记+代码+课件+资料

抢购haiwei.rar

Python 八股文.pdf

最新资源

python大作业含爬虫、数据可视化、地图、报告、及源码（2016-2021全国各地区粮食产量）.rar

人脸识别系统OpenCV+dlib+python（含数据库）Pyqt5界面设计项目源码毕业设计

Python教程2020版完全入门达到Python工程师水平笔记+代码+课件+资料