没有合适的资源?快使用搜索试试~ 我知道了~
paddle-operator:利用EDL和Volcano的Kubernetes进行弹性深度学习培训
共110个文件
go:50个
md:22个
yaml:11个
0 下载量 177 浏览量
2021-03-19
13:16:46
上传
评论
收藏 180KB ZIP 举报
温馨提示
桨式操作器 桨操作者目前正在利用EDL和Volcano项目。 EDL: : 火山: : 带有K8S Operator的EDL主要简化了分布式培训程序。通过检查点的能力,EDL可以容忍培训过程中的工人错误,从而使培训过程中的工人数量变得灵活。通过无服务器模式,整个培训任务可以从数量相对较少的工人开始。当群集资源足够时,请扩大整个培训任务中的工作人员数量,缩短作业启动时间,并尽快查看第一次迭代的结果。同时,通过在线/离线服务联合部署提高了集群的整体利用率,并提高了研发效率。 在调度程序级别,Volcano中的帮派调度用于整体发送任务,但是可以随时增加或减少工人数量。在这种情况下,训练仍然可以完全收敛。 EDL已在Wide&Deep模型和xDeepFM模型上得到验证。 在线/离线服务联合部署的能力反映在运行各种在线服务的生产集群中,通常有必要预留多余的资源来应对用户请求的突然增加。我们希望
资源推荐
资源详情
资源评论
收起资源包目录
paddle-operator:利用EDL和Volcano的Kubernetes进行弹性深度学习培训 (110个子文件)
Dockerfile 208B
Dockerfile 101B
Dockerfile 86B
.gitignore 36B
trainingjob_updater.go 28KB
jobparser.go 19KB
hostportmanager.go 13KB
zz_generated.deepcopy.go 12KB
autoscaler.go 12KB
autoscaler_internal_test.go 12KB
types.go 10KB
trainingjob_controller.go 10KB
garbage_collection.go 6KB
trainingjob.go 5KB
fake_trainingjob.go 5KB
paddle_operator.go 4KB
factory.go 4KB
kubernetes.go 3KB
trainingjob.go 3KB
clientset.go 3KB
main.go 3KB
resource.go 3KB
trainingjob.go 3KB
clientset_generated.go 3KB
paddlepaddle_client.go 3KB
generic.go 2KB
register.go 2KB
register.go 2KB
interface.go 1KB
interface.go 1KB
utils_test.go 1KB
training_job.go 1KB
factory_interfaces.go 1KB
fake_paddlepaddle_client.go 1KB
signal.go 1KB
autoscaler_test.go 1KB
register.go 1024B
expansion_generated.go 956B
utils.go 945B
parse.go 916B
factory.go 896B
trainingjob_list.go 840B
doc.go 748B
doc.go 735B
doc.go 732B
doc.go 732B
doc.go 725B
doc.go 723B
signal_posix.go 702B
register.go 686B
signal.go 670B
signal_windows.go 654B
generated_expansion.go 643B
labels.go 553B
.helmignore 333B
Godeps.json 33KB
LICENSE 11KB
LICENSE 0B
Makefile 2KB
updater.md 8KB
autoscaler.md 7KB
README.md 5KB
design-arch.md 5KB
controller.md 4KB
usecase.md 3KB
design-fault-tolerant.md 3KB
api.md 2KB
README.md 2KB
design-data-dispatch.md 2KB
design-coschedule.md 2KB
quick-start-guide.md 1KB
design.md 665B
README.md 617B
signals.md 303B
developer-guide.md 224B
CONTRIBUTING.md 201B
distributed-gpu-scheduler-optimization.md 71B
high-performance-network-support.md 69B
design-auto-scale.md 30B
user-guide.md 17B
README.md 0B
go.mod 2KB
go.mod 497B
part-0 24KB
part-1 24KB
model.py 8KB
train.py 6KB
train_ft.py 5KB
reader.py 1KB
start.py 566B
Readme 136B
update-codegen.sh 2KB
verify-codegen.sh 1KB
go.sum 70KB
go.sum 13KB
_helpers.tpl 516B
custom-boilerplate.go.txt 589B
boilerplate.go.txt 532B
NOTES.txt 31B
examplejob_with_kube_batch.yaml 1KB
共 110 条
- 1
- 2
资源评论
彷徨的牛
- 粉丝: 57
- 资源: 4720
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功