没有合适的资源?快使用搜索试试~ 我知道了~
sek:一个类似 Nutch 的, 基于 Hadoop 的并行式爬虫框架
需积分: 8 0 下载量 192 浏览量
2021-07-01
15:13:39
上传
评论
收藏 57KB ZIP 举报
温馨提示
简介 Sek - 一个类似 Nutch 的, 基于 Hadoop 的并行式爬虫框架. 当前尚处于构思阶段. 构思如下: 日志功能. 参数的可配置. 设置种子 URL 时可以进行必要的配置, 如评分, 定义抓取间隔等. 基于 正则表达式 的 URL 过滤. URL 规范化. 广度优先的抓取策略. 插件机制. 程序只提供一个必要的骨架, 可以通过插件的机制来定制软件的运行. Solr 集成, 提供全文检索.(待定) 支持图片的抓取.(待定) Note 这里对插件机制做个简单的说明. 即程序提供接口, 然后编写实现该接口的插件程序, 打包成 jar 文件放在 CLASSPATH 下, 通过配置文件的配置, 即可运行插件程序中的代码. 这样易于应用的拓展. 目前打算将 文本解析 部分以插件的机制实现. 这样就能实现特定站点运行特定的文本解析程序, 初步达到 定向抓取, 使数据更具征对性. 架构 J
资源推荐
资源评论
资源评论
丰雅
- 粉丝: 57
- 资源: 4580
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功