没有合适的资源?快使用搜索试试~ 我知道了~
mySpider:爬虫(Mongodb)
共828个文件
java:324个
xml:301个
properties:68个
需积分: 9 0 下载量 188 浏览量
2021-05-14
04:50:04
上传
评论
收藏 719KB ZIP 举报
温馨提示
spider-dist 分布式爬虫 搜索引擎设计和实现(附git源码) 简要说明 爬取网站,采用流程节点,用来处理摘要计算、关键字计算、相似度计算、热度计算,利用线程池启动多线程扫表的方式。数据经过流程计算以后,落库,搜索查询采用倒排索引原理实现快速搜索。 git地址: demo网址: 实现步骤 1.收集一些网址,作为爬/虫的入口。 种子url表结构: { “_id” : ObjectId(“5a9ec8965dc54c4352310b3c”), “urlId” : “io5636fba00146d784uiodf7e96bb9ij”, “url” : “, “deleteFlag” : “1”, “createTime” : “20170505120012”, “rootUrl” : “, “deep” : 1.0 } urlId为随机生成,url为种子url,deleteFlag:0表
资源推荐
资源详情
资源评论
收起资源包目录
mySpider:爬虫(Mongodb) (828个子文件)
$Proxy0.class 2KB
com.alibaba.dubbo.rpc.Filter 141B
com.alibaba.dubbo.rpc.Filter 141B
com.alibaba.dubbo.rpc.Filter 141B
com.alibaba.dubbo.rpc.Filter 74B
com.alibaba.dubbo.rpc.Filter 74B
com.alibaba.dubbo.rpc.Filter 74B
com.alibaba.dubbo.rpc.Filter 64B
com.alibaba.dubbo.rpc.Filter 64B
com.alibaba.dubbo.rpc.Filter 64B
.gitignore 219B
login.html 1KB
index.html 576B
http-requests-log.http 13KB
spider-openapi-scrawl.iml 10KB
spider-user-zipkin-provider.iml 10KB
spider-user-zipkin-provider02.iml 9KB
spider-search-papp.iml 9KB
spider-user-zipkin-consumer.iml 9KB
spider-user-papp.iml 8KB
spider-user-service-provider.iml 8KB
spider-user-embed.iml 8KB
spider-job.iml 8KB
spider-dist-scrawl.iml 8KB
spider-user-zipkin.iml 7KB
spider-user-service-impl.iml 7KB
spider-base-es.iml 6KB
spider-dist-facade-impl.iml 5KB
spider-base-kafka.iml 5KB
spider-base-spring.iml 5KB
spider-dist-service-impl.iml 5KB
spider-scrawl-facade-impl.iml 5KB
spider-scrawl-service-impl.iml 5KB
spider-base-mybatis.iml 4KB
spider-base-dubbo.iml 4KB
spider-base-redis.iml 4KB
spider-base-zipkin.iml 4KB
spider-base-utils.iml 3KB
git_mySpider.iml 3KB
spider-base-zookeeper.iml 2KB
spider-base-mongo.iml 1KB
spider-scrawl-service-api.iml 1KB
spider-dist-service-api.iml 944B
spider-base-job.iml 924B
spider-scrawl-facade-api.iml 741B
spider-dist-facade-api.iml 658B
spider-user-service-api.iml 658B
spider-core.iml 574B
spider-user.iml 574B
spider-base.iml 574B
spider-dist.iml 574B
spider-allparent.iml 574B
spider-parent.iml 574B
spider-openapi.iml 574B
spider-doc.iml 574B
spider-search.iml 574B
spider-scrawl.iml 555B
InputDataServiceImpl.java 13KB
SpiderThread.java 11KB
FlowServiceImpl.java 11KB
ReverseIndexServiceImpl.java 9KB
SpiderUrlServiceImpl.java 8KB
CreateSecretKey.java 7KB
SpiderSearchController.java 7KB
KeyWordsServiceImpl.java 7KB
KeyExtractThread.java 7KB
DistributedLock.java 6KB
UrlSimilarServiceImpl.java 6KB
ImageServiceImpl.java 6KB
ReverseIndexThread.java 5KB
SpiderRedisClient.java 5KB
SpiderDistScrawlContext.java 5KB
WordsDicServiceImpl.java 5KB
BlackWordsServiceImpl.java 5KB
TopicServiceImpl.java 5KB
SpiderCalServiceImpl.java 5KB
ReverseIndexCalNodeServiceImpl.java 5KB
SummaryExtractNodeServiceImpl.java 5KB
UrlDataExtractNodeServiceImpl.java 5KB
KeyExtractNodeServiceImpl.java 5KB
ReverseIndexCalServiceImpl.java 5KB
SpiderHttpUtil.java 5KB
SoServiceImpl.java 5KB
KeyExtractServiceImpl.java 4KB
SimilarCalServiceImpl.java 4KB
SummaryExtractServiceImpl.java 4KB
AuditServiceImpl.java 4KB
NIOClient.java 4KB
SimilarThread.java 4KB
NIOClient.java 4KB
RSACodeUtil.java 4KB
TestCloseAble.java 4KB
HotsCalServiceImpl.java 4KB
SimilarCalNodeServiceImpl.java 4KB
NIOServer.java 4KB
NIOServer.java 4KB
MyMessageProcessor.java 4KB
NIOServer.java 4KB
NIOServer.java 4KB
SummaryExtractThread.java 4KB
共 828 条
- 1
- 2
- 3
- 4
- 5
- 6
- 9
资源评论
dongyuwu
- 粉丝: 39
- 资源: 4559
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- ocr模型ch-ppocr-mobile-v2.0-cls-infer
- 计算两个地点之间的最短路线距离.php
- JavaWeb-学习笔记
- 一键安装docker环境:docker、docker-compose
- 使Unity开发的游戏支持热更新的解决方案
- 信息办公简易java开源订销管理系统-javainfo.zip
- 新闻文章NTsky新闻发布(提供JavaBean)v1.0-ntskynewsv1.0javabean.zip
- 搜索链接java(结合lucene)版的公交搜索系统-javaso.zip
- 基于深度循环神经网络DRNN的单通道音乐人声分离python源码(高分大作业).zip
- 实验4.docx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功