没有合适的资源?快使用搜索试试~ 我知道了~
aws-step-functions-kendra-web-crawler-search-engine:该示例旨在演示如何使用A...
共56个文件
ts:28个
json:7个
md:4个
需积分: 13 0 下载量 149 浏览量
2021-05-11
00:25:04
上传
评论
收藏 513KB ZIP 举报
温馨提示
:spider: 具有步骤功能和Kendra的无服务器Web爬网程序和搜索引擎 概述 本示例旨在演示如何使用和创建无服务器的Web爬网程序(或Web爬网程序)。 如果我们仅使用一个lambda来爬网一个大型网站,它将扩展为超时。 Web搜寻器是用Typescript编写的,并使用从给定的网页中提取内容和URL。 此外,此样本通过将已爬网内容索引到,为爬网程序演示了一个示例用例,并提供了基于机器学习功能的对已爬网内容的搜索。 Kendra资源的CloudFormation堆栈是可选的,您可以根据需要仅部署Web搜寻器。 在部署样本的kendra部分之前,请确保检查套餐。 用于将此示例的基础架构定义为代码。 建筑学 调用“开始抓取Lambda”以及要抓取的网站的详细信息。 “开始爬网Lambda”将创建一个Dynamo DB表,该表将用作爬网的URL队列。 启动抓取Lambda将初始URL写入队列
资源推荐
资源详情
资源评论
收起资源包目录
aws-step-functions-kendra-web-crawler-search-engine-main.zip (56个子文件)
aws-step-functions-kendra-web-crawler-search-engine-main
.github
PULL_REQUEST_TEMPLATE.md 354B
.readme-resources
state-machine.png 47KB
architecture.png 92KB
kendra-screenshot.png 210KB
local-crawl 187B
CONTRIBUTING.md 3KB
LICENSE 927B
README.md 6KB
destroy 424B
NOTICE 761B
CODE_OF_CONDUCT.md 309B
.gitignore 12B
deploy 535B
crawl 181B
lambda
webpack.config.js 1KB
src
utils
historyTable.ts 1KB
contextTable.ts 5KB
pagination.ts 2KB
index.ts 3KB
config
constants.ts 1KB
crawler
types.ts 1KB
core.ts 5KB
local.ts 1KB
steps
5_completeCrawl.ts 1KB
2_readQueuedUrls.ts 1KB
1_startCrawl.ts 2KB
3_crawlPageAndQueueUrls.ts 2KB
4_continueExecution.ts 991B
.babelrc 352B
tsconfig.json 662B
.gitignore 158B
bin
crawl.ts 3KB
local-crawl.ts 910B
build-chrome-layer.sh 447B
package-lock.json 248KB
package.json 1KB
infrastructure
lib
stacks
web-crawler-stack.ts 3KB
kendra-stack.ts 1KB
constructs
webcrawler
web-crawler-state-machine.ts 3KB
constants.ts 232B
chrome-lambda-layer.ts 487B
web-crawler-step-lambdas.ts 4KB
web-crawler-lambda.ts 950B
kendra
kendra-data-source-iam-role.ts 908B
kendra-index.ts 1011B
kendra-s3-data-source.ts 1KB
kendra-index-iam-role.ts 2KB
.npmignore 65B
tsconfig.json 598B
test
infrastructure.test.ts 156B
jest.config.js 234B
cdk.json 448B
.gitignore 93B
bin
infrastructure.ts 693B
package-lock.json 331KB
package.json 908B
共 56 条
- 1
资源评论
想知道不知道但想知道
- 粉丝: 43
- 资源: 4729
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功