没有合适的资源?快使用搜索试试~ 我知道了~
et-operator:用于 AI 和大数据弹性训练的 Kubernetes Operator
共82个文件
yaml:39个
go:29个
png:4个
需积分: 12 0 下载量 49 浏览量
2021-05-30
01:18:21
上传
评论
收藏 535KB ZIP 举报
温馨提示
弹性训练算子 概述 一些像这样的分布式深度学习训练框架支持弹性训练,它可以在不中断训练过程的情况下,在运行时动态地增加和减少训练工作的数量。 Et-operator 提供了一套 Kubernetes Custom Resource Definition,可以方便地在 kubernetes 中运行 horovod 或 AIACC 弹性训练。 提交训练作业后,您可以在训练期间按需扩展和扩展工人,这可以使您的训练作业更具弹性和效率。 设计 et-operator使用 3 个新的 CRD, TrainingJob , ScaleIn和ScaleOut 。 培训工作 用户提交TrainingJob CR 以指定训练作业详细信息,例如启动器和工作人员的图像、入口点命令、工作人员的副本。 et-operator将收到创建事件,然后创建TrainingJob的子资源(如 pods、configmap、s
资源推荐
资源详情
资源评论
收起资源包目录
et-operator-main.zip (82个子文件)
et-operator-main
api
v1alpha1
scalein_types.go 3KB
scaleout_types.go 4KB
groupversion_info.go 1KB
trainingjob_types.go 5KB
zz_generated.deepcopy.go 14KB
.gitignore 357B
go.mod 2KB
Dockerfile 781B
Makefile 3KB
pkg
util
home.go 2KB
exec.go 5KB
runtime.go 3KB
ssh.go 2KB
controllers
api
v1
doc.go 751B
types.go 8KB
zz_generated.deepcopy.go 5KB
constants.go 646B
suite_test.go 2KB
interface.go 1KB
scaler.go 8KB
worker.go 15KB
scalein_controller.go 6KB
status.go 8KB
scalein.go 7KB
scaleout_controller.go 5KB
trainingjob_controller.go 12KB
scaleout.go 4KB
resource.go 12KB
launcher.go 9KB
common.go 984B
go.sum 73KB
examples
scale_out.yaml 191B
training_job.yaml 1KB
scale_in_count.yaml 167B
scale_in_pod.yaml 200B
main.go 3KB
README.md 7KB
config
manager
manager.yaml 844B
kustomization.yaml 202B
prometheus
kustomization.yaml 26B
monitor.yaml 293B
webhook
kustomizeconfig.yaml 791B
service.yaml 171B
manifests.yaml 0B
kustomization.yaml 83B
deploy.yaml 684KB
certmanager
kustomizeconfig.yaml 391B
certificate.yaml 940B
kustomization.yaml 70B
default
manager_webhook_patch.yaml 508B
webhookcainjection_patch.yaml 625B
manager_auth_proxy_patch.yaml 746B
kustomization.yaml 3KB
rbac
leader_election_role.yaml 426B
auth_proxy_role_binding.yaml 262B
auth_proxy_role.yaml 280B
leader_election_role_binding.yaml 275B
auth_proxy_service.yaml 219B
kustomization.yaml 347B
role.yaml 2KB
role_binding.yaml 257B
crd
patches
webhook_in_scaleouts.yaml 627B
cainjection_in_trainingjobs.yaml 346B
webhook_in_trainingjobs.yaml 630B
webhook_in_scaleins.yaml 626B
cainjection_in_scaleins.yaml 342B
cainjection_in_scaleouts.yaml 343B
kustomizeconfig.yaml 474B
bases
kai.alibabacloud.com_trainingjobs.yaml 932KB
kai.alibabacloud.com_scaleins.yaml 7KB
kai.alibabacloud.com_scaleouts.yaml 7KB
kustomization.yaml 1KB
hack
crd_gen
main.go 3KB
update-codegen.sh 2KB
tools.go 701B
boilerplate.go.txt 530B
verify-codegen.sh 1KB
docs
images
scaleout.png 77KB
trainingjob.png 78KB
trainingjob-resource.png 47KB
scalein.png 71KB
PROJECT 253B
共 82 条
- 1
资源评论
陈崇礼
- 粉丝: 47
- 资源: 4683
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功