![](https://csdnimg.cn/release/download_crawler_static/5167100/bg1.jpg)
jsoup 简介
Java 程序在解析 HTML 文档时,相信大家都接触过 htmlparser 这个开源项
目,我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章,分别是:从
HTML 中攫取你所需的信息和 扩展 HTMLParser 对自定义标签的处理能力。
但现在我已经不再使用 htmlparser 了,原因是 htmlparser 很少更新,但最
重要的是有了 jsoup 。
jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文
本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于
jQuery 的操作方法来取出和操作数据。
jsoup 的主要功能如下:
1. 从一个 URL,文件或字符串中解析 HTML;
2. 使用 DOM 或 CSS 选择器来查找、取出数据;
3. 可操作 HTML 元素、属性、文本;
jsoup 是基于 MIT 协议发布的,可放心使用于商业项目。
jsoup 的主要类层次结构如图 1 所示:
图 1. jsoup 的类层次结构
接下来我们专门针对几种常见的应用场景举例说明 jsoup 是如何优雅的进行
HTML 文档处理的。
回页首
- 1
- 2
- 3
- 4
- 5
- 6
前往页