没有合适的资源?快使用搜索试试~ 我知道了~
htmlparser学习笔记
3星 · 超过75%的资源 需积分: 9 86 下载量 151 浏览量
2008-10-23
10:43:53
上传
评论
收藏 279KB DOC 举报
温馨提示
试读
36页
全面的介绍htmlparser技术的使用,从入门到实战,里面包含了代码示例!
资源推荐
资源详情
资源评论
!"
!"
#$$
$基本能实现网页抓取,不过要手动输入 !"将整个 % 内容保存到指定文件
$
$&%%'
$
$#
((()
*"+','-../
#$$
$&
$#
(-01/)
')
!"+2!"-.%3##4567849:4883959;#455#./
+-/
<
+2-2-//
(+2-/
+2-2-
.=3#,.//
2%--+"-//>+/)
(-?*"/
@
'-(/
+2-(/
2-/
-/
-/
@%- !"/)
A-/
@%-/)
A-/
@
@
@
基本能实现网页抓取,不过要手动输入 !",此外没有重构。只是一个简单的思路。
1.htmlparser 使用
htmlparser 是一个纯的 java 写的 html 解析的库, htmlparser 不依赖于其它的 java 库,
htmlparser 主要用于改造 或提取 html。htmlparser 能超高速解析 html,而且不会出错。毫
不夸张地说,htmlparser 就是目前最好的 html 解 析和分析的工具。无论你是想抓取网页数
据还是改造 html 的内容,用了 htmlparser 绝对会忍不住称赞。由于 htmlparser 结构设计
精良,所以扩展 htmlparser 非常便利。
B 中文论坛CC%3##((%#%%D+E
Constructor Summary
Parser()
Parser(!"*connection)
CCCCCCCCCC*%!"*
Method:
static,createParser(html, charset)
CCCCCCCCCC*%
voidvisitAllNodesWith(FGvisitor)
CCCCCCCCCCH'%%
HtmlPage(Parserparser)
F" getBody()
CCCCCCCCCCC
A(A[] getTables()
CCCCCCCCCCC
getTitle()
CCCCCCCCCCC
void setTitle(title)
CCCCCCCCCCC
void visitTag(Atag)
CCCCCCCCCC*%Tag
C
Constructor Summary
NodeList()
CCCCCCCCCCC
NodeList(Fnode)
CCCCCCCCCC*
CF" extractAllNodesThatMatch(Flter)
CCCCCCCCCC%2%%I'
F"extractAllNodesThatMatch(Flter, booleanrecursive)
CCCCCCCCCC%2%%
FelementAt(inti)
1. html 代码里面所有的链接地址和链接名称
%,
%F
%F
%,
%AF
%"A
%A(A
%F"
%,
%B,
#$$
$% 取得一段 % 代码里面所有的链接地址和链接名称
$
$&%%'
$
$#
(A%)
#$$
$&
$#
(-01/)
%+.JBA "KJBH=KJAA"KHHHJ#AA"KJ#BH=KJ=LK.
? .J %+M%3####65595N66#47#5756I;96I788I964;I
(E(6NN576N%MK连接 4J#K.
?.J%+M%3##MK连接 6J#KJ#=LKJ#BA "K.
##创建 , 对象根据传给字符串和指定的编码
,+,,-%<.OP./
##创建 B, 对象 B,-,/
B,+2B,-/
')
##B,<H'%%
##
HF%-/
@%-,4/)
4+
@
##所有的节点
F"+'-/
##建立一个节点 用于过滤节点
F+2AF-.H./
##得到所有过滤后,想要的节点
+HFA% %-</
-+5JQ-/??/)
"A+-"A/H-/
##链接地址
'-H(-.%./?.R./
##链接名称
'-A-//
@
@
@
结果如下:
http://topic.csdn.net/u/20080522/14/0ff402ef-c382-499a-8213-
ba6b2f550425.html
连接1
http://topic.csdn.net
连接2
2. 使用 HtmlParser 抓去网页内容
%,
%(
%F*
%
%'A
%F"
%,
#$$
$使用 B, 抓去网页内容3要抓去页面的内容最方便的方法就是使用 里
面有几个控制页面内容的几个参数
$在后面的代码中会有说明B 包中还有一个示例 里面有个直接得
到内容的方法<
$其中也是使用了 另外直接解析 , 的每个标签也可以的
$
$&%%'
$
$#
(O*)
(*!-/)
(+2-/
("-/##是否显示 2( 页面的连接-"/
##为了取得页面的整洁美观一般设置上面两项为 <如果要保持页面的原有格式<
如代码页面的空格缩进可以设置为
(*-/##如果是 的话把一系列空白字符用一个字符替代
(F-/##
(
!"-.%3##222(#N4H,#%#655E#5:#48#N85E7%./
'-.A%*3R.?(-//
@
(*!-<(/)
## 内部机制和上面的一样做了一下包装
+2-/
+
剩余35页未读,继续阅读
资源评论
- xu_yong_a1_1262011-10-16很好,很详细的讲解了html解析,只是好像是java,不是c#
- liao13812012-04-10很好,很详细的讲解了html解析,对我很有帮助
希望前行
- 粉丝: 0
- 资源: 9
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功