webcrawler:基于Playwright，RMQ，Kafka和Flink的重点网络爬虫

共28个文件

scala：5个

js：4个

gitignore：4个

JavaScript

需积分: 42 3 下载量 35 浏览量 2021-05-23 20:47:58 上传评论 1 收藏 50KB ZIP 举报

温馨提示

网络爬虫该存储库包含Otus Data Engineer课程的最终工作的源代码。该项目是专注于Web的爬网程序，可递归地爬网网站。它包含3个部分：提取程序是一个nodejs应用程序。它从frontier RMQ队列中读取URL，在选定的浏览器中打开页面，并将其内容存储在htmls kafka主题（HTML）和screenshots minio bucket（PNG）中。提取程序是flink作业。它从htmls kafka主题中读取HTML文档，提取内部链接并将其推入frontier RMQ队列。该服务还实现了使用MapState消除重复URL（DUE）的逻辑。运行程序是运行爬网的python脚本。如何启动搜寻 docker-compose build ; docker-compose up -d （等待〜20秒）; docker-compose run -v

资源推荐

资源详情

资源评论