python网络爬虫-入门基础学习.zip资源-CSDN文库

共1个文件

docx：1个

需积分: 5 48 浏览量 2024-04-25 07:30:14 上传评论收藏 27KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

package

python网络爬虫-入门基础学习.zip （1个子文件）

python网络爬虫-入门基础学习.docx 28KB

python 实训心得_python 网络爬虫——入门基础

网络爬虫(又被称为网页蜘蛛，网络机器人，在 FOAF 社区中间，更经常的称为网页追逐

者)，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的

名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

Python 学习网络爬虫主要分 3 个大的版块：明确目标，抓取，分析，存储

明确目标(要知道你准备在哪个范围或者网站去搜索)

爬(将所有的网站的内容全部爬下来)

取(去掉对我们没用处的数据)

处理数据(按照我们想要的方式存储和使用)

网络爬虫要做的，简单来说，就是实现浏览器的功能。通过指定 url ，直接返回给用户所需

要的数据，而不需要一步步人工去操纵浏览器获取。

1.通用爬虫 VS 聚焦爬虫

1.通用爬虫：搜索引擎使用的爬虫系统

实施：将网页以快照的形式保存在服务器上，进行关键字提取和垃圾数据剔除，提供用户

一个访问的方式

3.操作：爬取网页-》存储数据-》内容处理-》提供检索

4.搜索引擎排名—— PageRank 值——根据网站的流量进行顺序排名

1.1.爬取流程

1.选择已有的 url 地址，将 url 地址添加到爬取队列

2.从提取 url ，DNS 解析主机 IP ，将目标主机 IP 添加到爬取队列

3.分析网页内容，提取链接，继续执行上一步操作

1.2.搜索引擎获取新网站 URL 地址

1.主动推送 URL 地址-》提交 URL 地址给搜索引擎-》百度站长平台

2.其他网站的外链

3.搜索引擎和 DNS 服务商共同处理，收录新的网站信息

1.3.通用爬虫限制： Robot 协议【约定协议 robot.t 某 t】

robot 协议：协议指明通用爬虫可以爬取网页的权限

robot 协议是一种约定，一般是大型公司的程序或者搜索引擎等遵守

1 ) .字段说明

1.4.缺陷：

只能爬取和文本相关的数据，不能提供多媒体(图片、音乐、视频)以及其他二进制文件

(代码、脚本等)的数据爬取

提供的结果千篇一律，提供给所有人通用的一个结果，不能根据具体的人的类型进行区分

2.聚焦爬虫：

为了解决通用爬虫的缺陷，开发人员针对特定用户而开发的数据采集程序

特点：面向需求，需求驱动开发

2.HTTP&HTTPS

HTTP ：超文本传输协议： HyperTe 某 tTranferProtocal

HTTPS ：SecureHyperte 某 tTranferProtocol 安全的超文本传输协议

内容反馈

不会仰游的河马君

粉丝: 5506
资源: 7710

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈

feedback-tip