# playfish
playfish 基于JAVA技术的网页内容智能抓取
<pre><code>
基于JAVA技术的网页内容智能抓取
架构
完全基于java的技术
核心技术
XML解析,HTML解析,开源组件应用。应用的开源组件包括:
DOM4J:解析XML文件
jericho-html-2.5:解析HTML文件
commons-httpclient:读取WEB页面内容工具
其他必须的辅助引用包括:
commons-codec
commons-logging
jaxen
基本业务流程描述
通过XML文件定义抓取目标
通过DOM4J开源组件读取XML配置文件
根据配置文件执行抓取任务
对抓取到的内容根据定义进行解析与处理
目前缺陷功能描述
抓取内容如果有分页,则无法获取下一分页
目标页面可能包含有想抓取的信息,但没有抓取的配置选项。如百度贴吧
目标页面链接定义不够灵活,对于百度贴吧的链接参数以50增加的只能手动定义
没有多线程支持
日志输出比较混乱
错误处理比较简单,不能对失败的任务自动重新执行,很多地方缺乏错误判断,如空数组
程序架构不够清晰,代码略显凌乱
不支持抓取结果存入多个表,目前只能将结果放在一个表中
是否考虑写一个XML类,提供通用的调用XML节点跟解析结果的方法?
规定任务文件的DTD?
通配符替换不支持多个替换
目前功能描述
抓取目标定义
作用:
批量的定义抓取目标,自动生成要抓取的网页的地址。系统通过这个定义,自动生成要抓取的目标。网页抓取的意义在于批量自动化抓取,不可能手动的输入网址一个个进行抓取,所以抓取目标的自动生成是必须的。
抓取目标定义的XML文件范例:
<target encode="UTF-8" timeout="8000">
<multi-url>
<single-url href="http://robbin.javaeye.com/?page=1" />
</multi-url>
<wildcard-url href="http://robbin.javaeye.com/?page=(*)"
startpos="1" endpos="3" />
<target-regex root="http:// robbin.javaeye.com">
<![CDATA[
href\=\'(/blog/\d*)\'
]]>
</target-regex>
</target>
XML规则:
1. 必须包含target节点,target的encode与timeout属性如果采用默认,可以不设置
2. multi-url与wildcard-url可以任选一个,也可以并存,最多2个。合理的情况包括:只有一个multi-url,只有一个wildcard-url,一个multi-url和一个wildcard-url。注意,无论wildcard-url跟multi-url的顺序如何,系统都会从multi-url开始执行。
3. multi-url下包含至少一个single-url元素,通过single-url元素的href属性设置url
4. wildcard-url属性包括href,startpos,endpos,这3个属性都是必须的。目前只支持(*)通配,url中只能有一个(*),(*)将会被替换成startpos和endpos之间的数字。
5. target-regex属性包括root,该属性值将会被添加在通过这个正则匹配得到的url之前。主要针对相对url。相对url需要加上站点的根路径组成完整路径。而如果是绝对url的话,可以将root属性放空。注意,正则表达式需要放在CDATA标签内。因为正则包含特殊字符,必须放在CDATA内,否则很可能导致解析错误。
解析过程:
1. 首先获得页面编码与超时设置,在接下来读取任何html页面的过程中,这2个参数都会被应用。默认的编码为 UTF-8,默认的超时时限为5000ms。如果要抓取的网站访问很慢,响应时间特别长,那么这个超时时限可以相应设置得高一点。如果在target中没有指定这2个值,那么系统会采用默认的编码跟超时设置。
2. 判断是否包含multi-url定义,包含的话调用相应的方法,如果target下定义了target-regex元素,那么multi-url中定义的url会先被读取,然后将读取到的内容使用target-regex中定义的正则表达式进行匹配,将匹配结果作为目标列表返回。如果target下没有定义target-regex,那么将multi-url下所有的url作为目标列表返回。
3. 判断是否包含wildcard-url定义,包含的话调用相应的方法,首先获得起始跟终结位置,替换生成所有通配的url,接下来同multi-url,如果target下定义了target-regex元素,那么所有生成的通配url会先被读取,然后将读取到的内容使用target-regex中定义的正则表达式进行匹配,将匹配结果作为目标列表返回。如果target下没有定义target-regex,那么将所有生成的通配url作为目标列表返回。
举例1:最简单的定义抓取目标
例如我们抓取百度的首页,显然这是没什么意义的事情,这里只是举例说明抓取目标的定义方法。
<target encode="gb2312">
<multi-url>
<single-url href="http://www.baidu.com/" />
</multi-url>
</target>
这样就完整定义了抓取地址,对于target,我们定义了encode属性,但是省略了timeout属性,因为系统默认是utf8编码,而百度是gb2312编码,必须指定。而timeout我们默认就可以。
举例2:通配符url定义抓取目标
上网时候经常可以看到某篇文章,如果比较长,就可以会被分成多页,我们点击下一页翻看,对于这样的url地址一般都是非常有规律的,通常它的url带有一个类似page=1之类的属性。假设我们抓取某篇文章的全部内容,这篇文章地址为www.test.com/?page=1,它总共有3页,地址就是后面page从1变到3。那么我们可以这样定义目标:
<target>
<wildcard-url href="www.test.com/?page=(*)"
startpos="1" endpos="3" />
</target>
我们假设这个网站响应很快,并采用UTF8编码,target的2个属性我们就忽略了。系统会自动解析成www.test.com/?page=1 , www.test.com/?page=2 , www.test.com/?page=3 这样的3个网址。
举例3:multi-url+正则表达式定义抓取目标
比较经常的情况是,我们要抓取的内容在多个地址上。例如百度贴吧,我们想要某个贴吧前5页的所有的帖子的内容,显然,采用例子一定义所有帖子的url太烦琐,而帖子的url地址又没办法用通配符来表示,这个时候,使用正则抓取是最好的方法。这要求使用者有正则表达式的基础。
<target encode="gb2312" timeout="4000">
<multi-url>
<single-url href="http://tieba.baidu.com/f?z=0&ct=318767104&amp;lm=11&sc=0&rn=50&tn=baiduKeywordSearch&rs3=0&rs4=0&word=java&pn=0" />
<single-url href="http://tieba.baidu.com/f?z=0&ct=318767104&lm=11&sc=0&rn=50&tn=baiduKeywordSearch&rs3=0&rs4=0&word=java&pn=50" />
<single-url href="http://tieba.baidu.com/f?z=0&ct=318767104&lm=11&sc=0&rn=50&tn=baiduKeywordSearch&rs3=0&rs4=0&word=java&pn=100" />
</multi-url>
<target-regex root="http://tieba.baidu.com">
<![CDATA[
class=t\shref=\"(.*?)\"
]]>
</target-regex>
</target>
首先我们列出3个页面列表,每个页面上大概有50个帖子,通过查看源代码我们看到它的url是这样写的<a class=t href="/f?kz=350025590" target=_blank > ,通过总结规律,我们得出了上面target-regex的正则表达式,系统将通过这个正则去匹配所有符合条件的地址。注意,必须将我们要的地址页就是这里href里面的内容用()括起来,这样系统才会获取这个分组。
由于百度这里采用的是相对路径,所以我们要设定根节点root,系统匹配完成后会用root加上匹配结果作为目标地址,也就是http://tieba.baidu.com/f?kz=350025590。
同样的,wildcard-url元素也可以配合target-regex来使用。
清除目标定义
作用:
将抓取到的目标文件用定义的规则进行裁减。先去掉网页中我们不需要的内容,可能对于后面的解析有帮助。
清除目标定义的XML文件范例:
<cleaner>
<clean type="head"></clean>
<clean type="css"></clean>