使用指南
五月
需要做一个垂直搜索引擎,比较了 和 !!的功能,尽管 在容错性、性能
等方面的口碑好像比 !! 好("# 也用的是 ),但感觉 的测试用例
和文档都比 !! 都少,而且 !! 基本上能够满足垂直搜索引擎页面处理分析的需求,因
此先研究一 下 !! 的使用,有空再研究 和 $# !! 的使用。 的
功能还是官方说得最为清楚,
!!# % & #'! !(" !##! # !!) #*
!# !#(")!! )! #!+! ,##) "!-!&##!," .
("% & / *0# ) !'" 1 , .*
1)" "2, ! '( !!
!+! ,# ! )! #("2, 1! . !,!
)!,! ,#'! '(!,!"!,) *3#!#!
&!#,,! +! ,#)!1' .4!#*5) !!
"' # #!&# ! )! )!#.1' .1###- .
,! # ##. &!' #""*
研究的重点还是 +! ,# 的使用,有空再研究 ! )! # 的使用。
、 !! 对 页面处理的数据结构
如图所示, !! 采用了经典的 # 模式,通过
!6、+6、 .6、'! ,6 和 . 来描述 页面各元素。
org.htmlparser.Node:
6 接口定义了进行树形结构节点操作的各种典型操作方法,包括:
节点到 html 文本、text 文本的方法: #+!#.、
典型树形结构遍历的方法:
. !、.#!、.7#!#、. #、.!&#"#'#.、.6+#'#.、
.+
获取节点对应的树形结构结构的顶级节点 Page 对象方法:. .
获取节点起始位置的方法:. !##、.##
Visitor 方法遍历节点时候方法: ,,64##!&##!
Filter 方法:,,06##67#!-!
评论4
最新资源