htmlparser学习笔记资源-CSDN文库

3星 · 超过75%的资源需积分: 9 85 浏览量 2008-10-23 10:43:53 上传评论收藏 279KB DOC 举报

HTMLParser是一个纯Java编写的库，专门用于解析和处理HTML文档。它不依赖任何其他Java库，这使得它在解析HTML时具有高度的独立性和效率。HTMLParser的设计使其能够快速且准确地处理HTML，即使面对格式不规范或复杂的HTML结构也能保持稳定。这个库非常适合用于数据抓取、网页内容提取，以及对HTML进行修改等任务。在使用HTMLParser时，首先需要创建一个`Parser`对象。可以使用无参构造函数`Parser()`或者传入一个`URLConnection`来创建解析器，这通常涉及到从网络获取HTML内容。例如： ```java Parser parser = new Parser("http://example.com"); ``` 如果已经有一个HTML字符串，可以使用静态方法`createParser(String html, String charset)`来创建解析器，其中`charset`参数是HTML的字符编码。解析HTML后，可以通过访问其提供的各种方法来操作和获取HTML页面的信息。例如，`visitAllNodesWith(NodeVisitor visitor)`方法可以遍历整个HTML页面的所有节点，允许自定义的`NodeVisitor`类来处理每个节点。这样可以实现按需提取特定信息。 `HtmlPage`是HTMLParser中的核心类，它表示整个HTML页面。你可以通过`getBody()`获取页面的主体内容，使用`getTables()`获取所有表格，或者用`getTitle()`获取页面标题，并通过`setTitle(String title)`设置新的标题。`visitTag(Tag tag)`方法会在遍历过程中对每个`Tag`调用，这对于处理特定标签非常有用。 `NodeList`是HTMLParser中用于存储节点列表的类，可以方便地操作一组节点。它可以由单个`Node`实例初始化，如`NodeList(Node node)`，也可以无参数构造一个空的列表。在提供的代码示例中，`ScrubSelectedWeb`类展示了如何使用基本的IO操作抓取指定URL的HTML内容，并将其保存到本地文件。虽然这个例子中没有涉及HTMLParser的具体解析操作，但它展示了如何获取网络资源并准备输入到解析器的过程。 HTMLParser是一个强大的HTML处理工具，它的灵活性和高效性使得它成为Java开发者在处理HTML时的首选。通过熟练掌握HTMLParser的API和节点遍历机制，可以轻松地实现网页数据提取、内容修改等复杂任务。对于想要深入学习和实践的开发者，访问HTMLParser的中文论坛（http://bbs.hexiao.cn/thread.php?fid=6）可以获取更多的支持和资源。

资源推荐

资源详情

资源评论















 !"

!"

#$$

$基本能实现网页抓取，不过要手动输入 !"将整个 % 内容保存到指定文件

$

$&%%'

$

$#

((()

*"+','-../

#$$

$&

$#

(-01/)

')

!"+2!"-.%3##4567849:4883959;#455#./

+-/

<

+2-2-//

(+2-/

+2-2-

.=3#,.//

2%--+"-//>+/)

(-?*"/

'-(/

+2-(/

2-/

-/

-/

@%- !"/)

A-/

@%-/)

void visitTag(Atag)
CCCCCCCCCC*%Tag
C
Constructor Summary
NodeList()
CCCCCCCCCCC
NodeList(Fnode)
CCCCCCCCCC*
CF" extractAllNodesThatMatch(Flter)
CCCCCCCCCC%2%%I'
F"extractAllNodesThatMatch(Flter, booleanrecursive)
CCCCCCCCCC%2%%
FelementAt(inti)
1. html 代码里面所有的链接地址和链接名称

%,
%F
%F
%,
%AF
%"A
%A(A
%F"
%,
%B,
#$$
$% 取得一段 % 代码里面所有的链接地址和链接名称
$
$&%%'
$
$#
(A%)

#$$

$&

$#

(-01/)

%+.JBA "KJBH=KJAA"KHHHJ#AA"KJ#BH=KJ=LK.

?  .J  %+M%3####65595N66#47#5756I;96I788I964;I

(E(6NN576N%MK连接 4J#K.

?.J%+M%3##MK连接 6J#KJ#=LKJ#BA "K.

##创建 , 对象根据传给字符串和指定的编码

,+,,-%<.OP./

##创建 B, 对象 B,-,/

B,+2B,-/

')

##B,<H'%%

##

HF%-/

@%-,4/)

4+

##所有的节点

F"+'-/

##建立一个节点  用于过滤节点

F+2AF-.H./

##得到所有过滤后，想要的节点

+HFA% %-</

-+5JQ-/??/)

"A+-"A/H-/

##链接地址

'-H(-.%./?.R./

##链接名称

'-A-//

结果如下：

http://topic.csdn.net/u/20080522/14/0ff402ef-c382-499a-8213-

ba6b2f550425.html

连接1

http://topic.csdn.net

连接2

2. 使用 HtmlParser 抓去网页内容



%,

%(

%F*

%

%'A

%F"

%,

#$$

$使用 B, 抓去网页内容3要抓去页面的内容最方便的方法就是使用 里

面有几个控制页面内容的几个参数

$在后面的代码中会有说明B 包中还有一个示例 里面有个直接得

到内容的方法<

$其中也是使用了 另外直接解析 , 的每个标签也可以的

$

$&%%'

$

$#

(O*)

(*!-/)

(+2-/

("-/##是否显示 2( 页面的连接-"/

##为了取得页面的整洁美观一般设置上面两项为 <如果要保持页面的原有格式<

如代码页面的空格缩进可以设置为 

(*-/##如果是  的话把一系列空白字符用一个字符替代

(F-/##

(

!"-.%3##222(#N4H,#%#655E#5:#48#N85E7%./

'-.A%*3R.?(-//

(*!-<(/)

## 内部机制和上面的一样做了一下包装

+2-/

+

剩余35页未读，继续阅读

评论收藏

内容反馈

xu_yong_a1_126

2011-10-16

很好，很详细的讲解了html解析，只是好像是java，不是c#
liao1381

2012-04-10

很好，很详细的讲解了html解析，对我很有帮助

希望前行

粉丝: 0
资源: 9

htmlparser学习笔记

HtmlParser学习笔记-- htmlparser简介

HtmlParser笔记

htmlparser

c#版htmlparser htmlparser.dll htmlparser源代码

htmlparser2.0的学习文档

HtmlParser

HTMLParser.net源代码HTMLParser.net使用demo

htmlparser-1.2.1 jar

htmlparser库与教程

htmlparser2.0_dll+htmlparserAPI

htmlparser学习文档

HtmlParser源码及demo

Winista.Htmlparser.Net 源码 +Demo

htmlparser.jar文件

HTMLParser 2.0

Winista.HtmlParser

htmlparser网页分析

微信小程序源码-合集6.rar

微信小程序源码-合集4.rar

微信小程序源码-合集5.rar

微信小程序源码-合集3.rar

微信小程序源码-合集2.rar

浏览器插件 Auto Refresh Plus 7.4.4 ctx

品优购项目 素材及代码

学生宿舍管理系统源码文件

全能电子地图下载器1.9.5完善版.zip

大学生网页设计大作业-5个网页设计制作作品自己任选

数据可视化大屏资料合集（网上收集的几十种样式的html静态页）

微信小程序+后台（.net）+sql server数据库

最新资源

品优购项目素材及代码