没有合适的资源？快使用搜索试试~ 我知道了~

文库首页安全技术其它JAVA技术的网页内容智能抓取.pdf

JAVA技术的网页内容智能抓取.pdf

1.该资源内容由用户上传，如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款（资源遇到问题，请及时私信上传者）

版权申诉

0 下载量 21 浏览量 2021-10-02 11:49:28 上传评论收藏 37KB PDF 举报

温馨提示

试读

10页

JAVA技术的网页内容智能抓取.pdf

资源推荐

资源详情

资源评论

基于 JAVA 技术的网页内容智能抓取

架构

完全基于 java 的技术

核心技术

XML 解析， HTML 解析，开源组件应用。应用的开源组件包括：

DOM4J ：解析 XML 文件

jericho-html-2.5 ：解析 HTML 文件

commons-httpclient ：读取 WEB 页面内容工具

其他必须的辅助引用包括：

commons-codec

commons-logging

jaxen

基本业务流程描述

通过 XML 文件定义抓取目标

通过 DOM4J 开源组件读取 XML 配置文件

根据配置文件执行抓取任务

对抓取到的内容根据定义进行解析与处理

目前缺陷功能描述

抓取内容如果有分页，则无法获取下一分页

目标页面可能包含有想抓取的信息，但没有抓取的配置选项。如百度贴吧

目标页面链接定义不够灵活，对于百度贴吧的链接参数以 50 增加的只能手动定义

没有多线程支持

日志输出比较混乱

错误处理比较简单，不能对失败的任务自动重新执行，很多地方缺乏错误判断，如

空数组

程序架构不够清晰，代码略显凌乱

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余9页未读，立即下载

评论收藏

内容反馈

1.该资源内容由用户上传，如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款（资源遇到问题，请及时私信上传者）

版权申诉

资源评论

资源反馈

评论星级较低，若资源使用遇到问题可联系上传者，3个工作日内问题未解决可申请退款~

资料大全

粉丝: 14
资源: 26万+

上传资源快速赚钱

我的内容管理展开

我的资源快来上传第一个资源

我的收益

登录查看自己的收益

我的积分登录查看自己的积分

我的C币登录后查看C币余额

我的收藏

我的下载

下载帮助

前往需求广场，查看用户热搜

JAVA技术的网页内容智能抓取.pdf

基于JAVA技术的网页内容智能抓取.pdf

基于JAVA技术的网页内容智能抓取.doc

基于JAVA技术的网页内容智能抓取.doc编程资料

使用java的html解析器实现自动重复抓取任意网站页面.pdf

专业屏幕取词引擎getword

专业屏幕取词引擎-GetWord v5.0

worldwindjava源码-awesome-osint:真棒osint

worldwindjava源码-Awesome-OSINT:真棒-OSINT

基于JAVA技术的网页内容智能抓取.docx

面向智能生产的智能抓取系统.pdf

JAVA使用爬虫抓取网站网页内容的方法

百度贴吧签到网站源码Java-playfish:playfish基于JAVA技术的网页内容智能抓取

C#抓取网页内容.pdf

worldwindjava源码-awesome-osint-fork:真棒osint-fork

worldwindjava源码-thelinuxchoice:linux选择

worldwindjava源码-OpenSourceIntelligence:在这个里面你可以找到其他与黑客相关的回购

基于机器视觉的工件智能抓取技术研究.pdf

基于机器视觉的机器人抓取技术.pdf

可进行电池组检测的智能抓取系统.pdf

Python数据抓取技术与实战.pdf

基于微博API的分布式抓取技术.pdf

基于视觉和工业机器人的动态抓取技术.pdf

基于视觉的机器人抓取技术的研究.pdf

可进行电池组检测的智能抓取系统 (1).pdf

抓取系统的通信技术选择.pdf

2022金蝶云星空插件开发学习文档.zip

《基础实验》期末考试试题 综合大作业

“未来工厂”建设导则.pdf

最新资源

《基础实验》期末考试试题综合大作业