爬虫技术-Scrapy组件.pptx
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
![preview](https://dl-preview.csdnimg.cn/87356324/0001-bafeba6de0ced718ce4028748934d28d_thumbnail.jpeg)
![preview-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/scale.ab9e0183.png)
Scrapy是一个强大的Python爬虫框架,它包含了众多组件来简化网络爬虫的开发。本节主要探讨了Scrapy的核心组件及其工作流程,并通过实例演示了如何使用Scrapy爬取豆瓣Top250电影数据和房天下网站数据。 首先,网络爬虫的基本流程包括:确定起始URL、发送HTTP请求、接收响应、解析网页内容、提取所需数据、决定后续的爬取目标。Scrapy组件就是围绕这个流程设计的,旨在高效地自动化这些步骤。 Scrapy的核心组件包括: 1. **Spiders**:这是Scrapy爬虫的主要部分,负责定义如何从网页中提取数据以及如何跟进链接。在Scrapy项目中,我们创建Spiders类,定义它们的行为,如在`moviesSpider.py`和`fangProject.py`中所示,分别用于爬取豆瓣Top250电影数据和房天下数据。 2. **Downloader**:负责发送HTTP请求并接收响应。它与Spiders协作,处理爬取过程中的网络交互。 3. **Item**:Item是Scrapy用于收集和封装爬取数据的容器,类似于字典,但提供了声明字段和验证数据的机制。例如,在`items.py`文件中定义Item结构,如电影的名称、评分和简介等,然后在Spider中将数据保存到Item中。 4. **Selector**:Scrapy提供XPath和CSS选择器来从HTML或XML文档中提取数据。在Spider中,我们可以使用这些选择器从响应中提取我们需要的信息。 5. **Pipeline**:Pipeline组件负责处理经过Item收集的数据,可以进行数据清洗、验证、去重和持久化存储等操作。在`pipelines.py`中定义Pipeline类,例如`DoubanmoviesPipeline`,可以添加数据持久化功能的代码,然后在`settings.py`中启用该Pipeline,确保在爬取过程中调用。 6. **Settings**:Scrapy的配置文件,可以设置爬虫的行为,如定义请求头(USER_AGENT)、启用或禁用特定组件、设置下载延迟等。 7. **Start-up Script**:如`start.py`,用于方便地启动Scrapy项目,避免每次都手动在终端输入`scrapy crawl`命令。 通过以上组件的协同工作,我们可以轻松地构建和运行复杂的网络爬虫。在豆瓣Top250电影数据爬取的例子中,我们首先定义了Spiders类,解析网页内容,使用Item封装电影信息,然后通过Pipeline将数据保存到数据库。类似地,对于房天下数据爬取,我们也遵循相同的流程,只不过目标URL、解析规则和保存数据的方式可能不同。 总的来说,Scrapy通过其组件化的设计,使开发者能够专注于数据提取和处理逻辑,而无需过多关心网络请求和响应的底层细节,大大提高了开发效率和代码的可维护性。这使得Scrapy成为Python中广泛使用的网络爬虫框架之一。
![ppt](https://img-home.csdnimg.cn/images/20210720083527.png)
![ppt](https://img-home.csdnimg.cn/images/20210720083527.png)
![pptx](https://img-home.csdnimg.cn/images/20210720083543.png)
![pptx](https://img-home.csdnimg.cn/images/20210720083543.png)
![pptx](https://img-home.csdnimg.cn/images/20210720083543.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pptx](https://img-home.csdnimg.cn/images/20210720083543.png)
![pptx](https://img-home.csdnimg.cn/images/20210720083543.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![whl](https://img-home.csdnimg.cn/images/20210720083646.png)
![whl](https://img-home.csdnimg.cn/images/20210720083646.png)
![whl](https://img-home.csdnimg.cn/images/20210720083646.png)
![whl](https://img-home.csdnimg.cn/images/20210720083646.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![whl](https://img-home.csdnimg.cn/images/20210720083646.png)
![synapse3](https://img-home.csdnimg.cn/images/20210720083646.png)
![](https://csdnimg.cn/release/download_crawler_static/87356324/bg1.jpg)
![](https://csdnimg.cn/release/download_crawler_static/87356324/bg2.jpg)
![](https://csdnimg.cn/release/download_crawler_static/87356324/bg3.jpg)
![](https://csdnimg.cn/release/download_crawler_static/87356324/bg4.jpg)
剩余18页未读,继续阅读
![avatar-default](https://csdnimg.cn/release/downloadcmsfe/public/img/lazyLogo2.1882d7f4.png)
![avatar](https://profile-avatar.csdnimg.cn/default.jpg!1)
- 粉丝: 361
- 资源: 1万+
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![voice](https://csdnimg.cn/release/downloadcmsfe/public/img/voice.245cc511.png)
![center-task](https://csdnimg.cn/release/downloadcmsfe/public/img/center-task.c2eda91a.png)
![dialog-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/green-success.6a4acb44.png)