爬虫webmagic中文资料资源-CSDN文库

需积分: 31 8 浏览量 2016-08-12 10:51:26 上传评论 1 收藏 2.66MB PDF 举报

### 知识点一：WebMagic概述 #### 设计思想 - **专注单一领域**：WebMagic专注于Web爬虫这一特定领域，旨在提供简洁、高效且易于使用的爬虫框架。 - **微内核与高可扩展性**：采用微内核架构设计，核心功能精简，易于理解和维护；同时支持高度的扩展性，方便用户根据需求添加或替换组件。 - **实用性优先**：在设计时考虑到实际应用的需求，确保框架不仅具备理论上的完整性，同时也易于实际部署和维护。 #### 总体架构 WebMagic的整体架构分为四个主要组件： 1. **Downloader（下载器）**：负责从互联网下载网页数据。 2. **PageProcessor（页面处理器）**：对下载的页面进行解析和处理，提取有用的信息。 3. **Scheduler（调度器）**：管理待处理URL队列，控制爬虫的工作流。 4. **Pipeline（管道）**：处理PageProcessor提取的数据，并将其存储到指定位置。 #### 项目组成 - **webmagic-core**：包含核心组件和基本功能。 - **webmagic-extension**：提供高级特性，如基于注解的爬虫开发、Xsoup等。 - **外围扩展**：包括各种额外功能，如特定网站的爬虫模板等。 - **webmagic-avalon**：正在开发的产品化项目，可能包括更多企业级特性。 ### 知识点二：快速开始 #### 添加依赖 1. **使用Maven**：通过将WebMagic的Maven仓库地址加入pom.xml文件来自动下载依赖。 2. **不使用Maven**：手动下载JAR包并添加到项目中。 #### 编写第一个爬虫 1. **实现PageProcessor接口**：定义如何解析页面和提取数据。 2. **配置Spider对象**：设置爬虫的基本属性，如初始URL。 3. **启动爬虫**：调用Spider对象的start()方法启动爬虫。 ### 知识点三：下载和编译源码 1. **下载源码**：从官方GitHub仓库或Maven中心仓库下载最新版本的源码。 2. **导入项目**：使用IDE（如IntelliJ IDEA或Eclipse）打开项目。 3. **编译和执行源码**：通过IDE进行编译和运行示例程序。 ### 知识点四：编写基本的爬虫 #### 实现PageProcessor 1. **定义PageProcessor接口的实现类**：该类需要覆盖process(Page page)方法，用于处理页面数据。 2. **使用Selectable的链式API**：利用Jsoup提供的链式方法来简化DOM操作。 3. **保存结果**：定义如何将提取的数据保存到数据库或其他存储系统中。 #### 爬虫的配置、启动和终止 1. **配置Spider对象**：设置爬虫的各种参数，如并发级别、超时时间等。 2. **启动爬虫**：调用Spider对象的start()方法启动爬虫。 3. **终止爬虫**：当爬虫完成任务或遇到错误时，可以通过调用stop()方法停止爬虫。 #### Jsoup与Xsoup 1. **Jsoup**：用于解析HTML文档，支持链式调用来简化DOM操作。 2. **Xsoup**：扩展了XPath语法，使选择器更具表达力和灵活性。 #### 爬虫的监控 1. **统计信息**：跟踪爬虫运行过程中的关键指标，如已下载页面数、请求失败率等。 2. **日志记录**：记录爬虫运行过程中的异常情况和其他重要信息。 ### 知识点五：使用注解编写爬虫 1. **编写Model类**：定义数据模型，用于存储爬取的结果。 2. **TargetUrl与HelpUrl**：标记用于匹配目标URL和辅助URL。 3. **使用ExtractBy进行抽取**：指定如何从页面中抽取数据。 4. **在类上使用ExtractBy**：可以在类级别指定抽取规则。 5. **结果的类型转换**：自动将抽取的结果转换为对应的Java类型。 6. **一个完整的流程**：从定义Model类到启动爬虫的完整步骤。 7. **AfterExtractor**：用于处理抽取后的逻辑，如数据清洗等。 ### 知识点六：组件的使用和定制 #### 定制Pipeline 1. **定义自定义Pipeline**：实现Pipeline接口，定义如何处理提取的数据。 2. **注册Pipeline**：在配置文件中注册自定义Pipeline。 #### 使用Scheduler 1. **自定义Scheduler**：实现Scheduler接口，定制爬虫的工作流。 2. **配置Scheduler**：在配置文件中指定自定义Scheduler。 #### 使用Downloader 1. **自定义Downloader**：实现Downloader接口，添加特殊功能，如代理支持等。 2. **配置Downloader**：在配置文件中注册自定义Downloader。 ### 知识点七：实例分析 #### 列表+详情的基本页面组合 1. **列表页面**：通常包含多个链接，指向具体的详情页面。 2. **详情页面**：包含具体信息，如文章内容等。 #### 抓取前端渲染的页面 1. **模拟浏览器行为**：使用PhantomJS等工具来模拟真实浏览器的行为，加载JavaScript渲染的内容。 2. **识别动态加载内容**：通过分析页面动态加载的行为，定位需要等待加载完成的元素。 #### 分页抓取 1. **识别分页模式**：分析网站的分页链接结构，确定分页模式。 2. **递归抓取**：编写逻辑来递归地访问每一页，直到达到指定条件为止。 #### 定期抓取 1. **定时任务**：使用Quartz等定时任务调度库，定期启动爬虫任务。 2. **增量更新**：只抓取新产生的数据，提高效率。 #### 增量更新 1. **检查更新标记**：通常基于时间戳或版本号等字段判断数据是否已经存在。 2. **优化存储策略**：只存储新增或更新的数据，减少资源占用。 ### 结论 WebMagic是一个强大而灵活的爬虫框架，它不仅提供了基本的爬虫功能，还支持高度的可定制性和扩展性。无论是初学者还是经验丰富的开发者，都能从中找到适合自己的工具和解决方案。通过上述知识点的学习，你将能够更好地理解和使用WebMagic进行高效的网络爬虫开发。

资源推荐

资源详情

资源评论

1. Introduction
2. WebMagic概览
i. 设计思想
ii. 总体架构
iii. 项目组成
3. 快速开始
i. 添加依赖
ii. 不使用Maven
iii. 编写第一个爬虫
4. 下载和编译源码
i. 下载源码
ii. 导入项目
iii. 编译和执行源码
5. 编写基本的爬虫
i. 实现PageProcessor
ii. 使用Selectable的链式API
iii. 保存结果
iv. 爬虫的配置、启动和终止
v. Jsoup与Xsoup
vi. 爬虫的监控
6. 使用注解编写爬虫
i. 编写Model类
ii. TargetUrl与HelpUrl
iii. 使用ExtractBy进行抽取
iv. 在类上使用ExtractBy
v. 结果的类型转换
vi. 一个完整的流程
vii. AfterExtractor
7. 组件的使用和定制
i. 定制Pipeline
ii. 使用Scheduler
iii. 使用Downloader
8. 实例分析
i. 列表+详情的基本页面组合
ii. 抓取前端渲染的页面
iii. 分页抓取
iv. 定期抓取
v. 增量更新
TableofContents