信息检索与算法研究
NekoHTML学习笔记
NekoHTML学习笔记<o:p></o:p>
J. Andrew Clark用Java写了一系列的工具(Java APIs),NekoHTML是其中之一。
NekoHTML是一个简单地HTML扫描器和标签补偿器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能投扫描HTML文件并“修正”许多作者(人或机器)在编写HTML文档过程中常犯的错误。NekoHTML能增补缺失的父元素、自动用结束标签关闭相应的元素,以及不匹配的内嵌元素标签。NekoHTML的开发使用了Xerces Native Interface (XNI),后者是Xerces2的实现基础。<o:p></o:p>
<o:p></o:p>
一、运行要求<o:p></o:p>
从NekoHTML主页上下载nekohtml-latest.zip,目前版本是0.8.
NekoHTML要求运行在java1.1或更高版本,Xerces-J 2.0或更高版本。(我在试用时,随便拿了个xerces的包来用,结果例如运行老时不能通过,折腾半天后才发现版本不够所致.:)
<o:p></o:p>