没有合适的资源?快使用搜索试试~ 我知道了~
webcrawler:基于Playwright,RMQ,Kafka和Flink的重点网络爬虫
共28个文件
scala:5个
js:4个
gitignore:4个
需积分: 42 3 下载量 35 浏览量
2021-05-23
20:47:58
上传
评论 1
收藏 50KB ZIP 举报
温馨提示
网络爬虫 该存储库包含Otus Data Engineer课程的最终工作的源代码。 该项目是专注于Web的爬网程序,可递归地爬网网站。 它包含3个部分: 提取程序是一个nodejs应用程序。 它从frontier RMQ队列中读取URL,在选定的浏览器中打开页面,并将其内容存储在htmls kafka主题(HTML)和screenshots minio bucket(PNG)中。 提取程序是flink作业。 它从htmls kafka主题中读取HTML文档,提取内部链接并将其推入frontier RMQ队列。 该服务还实现了使用MapState消除重复URL(DUE)的逻辑。 运行程序是运行爬网的python脚本。 如何启动搜寻 docker-compose build ; docker-compose up -d (等待〜20秒); docker-compose run -v
资源推荐
资源详情
资源评论
收起资源包目录
webcrawler-master.zip (28个子文件)
webcrawler-master
.gitignore 74B
fetcher
.gitignore 22B
Dockerfile 144B
app
storage.js 723B
config.js 2KB
browser.js 2KB
server.js 4KB
package.json 598B
package-lock.json 24KB
crawler.png 25KB
runner
.gitignore 25B
Dockerfile 827B
app
run.py 2KB
requirements.txt 26B
LICENSE 1KB
docker-compose.yaml 6KB
extractor
.gitignore 66B
Dockerfile 128B
project
plugins.sbt 119B
build.properties 20B
src
main
resources
log4j.properties 427B
scala
schemas
package.scala 147B
amqp
package.scala 825B
utils
package.scala 2KB
extractor.scala 4KB
ust
package.scala 2KB
build.sbt 691B
README.md 1KB
共 28 条
- 1
资源评论
钟离舟
- 粉丝: 34
- 资源: 4667
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功