没有合适的资源?快使用搜索试试~ 我知道了~
弹性:PyTorch弹性训练
共204个文件
py:104个
yaml:18个
md:17个
需积分: 10 0 下载量 39 浏览量
2021-02-17
07:43:04
上传
评论
收藏 1.22MB ZIP 举报
温馨提示
火炬弹力 TorchElastic允许您以容错和弹性方式启动分布式PyTorch作业。 有关最新文档,请访问我们的。 要求 弹力要求 python3(3.8+) 火炬 等 安装 pip install torchelastic 快速开始 4节点上的容错能力,每个节点8教练员,总共4 * 8 = 32教练员。 在所有节点上运行以下命令。 python -m torchelastic.distributed.launch --nnodes=4 --nproc_per_node=8 --rdzv_id=JOB_ID --rdzv_backend=etcd --rdzv_endpoint=ETCD_HOST:ETCD_PORT YOUR_TRAININ
资源推荐
资源详情
资源评论
收起资源包目录
弹性:PyTorch弹性训练 (204个子文件)
PLACEHOLDER.DELETEME 0B
Dockerfile 912B
Dockerfile 767B
Dockerfile 662B
Dockerfile 342B
Dockerfile 168B
.dockerignore 16B
fetch_and_run 2KB
.gitignore 334B
elasticjob_controller.go 7KB
job.go 7KB
expectation.go 4KB
pod.go 4KB
zz_generated.deepcopy.go 4KB
service.go 3KB
elasticjob_types.go 3KB
main.go 2KB
suite_test.go 2KB
util.go 1KB
groupversion_info.go 890B
constants.go 409B
install_etcd 1KB
torchelastic_agent_diagram.jpg 219KB
torchelastic_diagram.jpg 177KB
efs-setup.jpg 169KB
agent_diagram.jpg 150KB
kubernetes.json 1KB
sample_specs.json 850B
LICENSE 1KB
Makefile 2KB
Makefile 952B
README.md 13KB
README.md 10KB
torchelastic-operator-design.md 8KB
design_doc.md 8KB
TROUBLESHOOTING.md 7KB
README.md 6KB
README.md 6KB
CODE_OF_CONDUCT.md 3KB
CHANGELOG.md 2KB
README.md 2KB
CONTRIBUTING.md 1KB
bug-report.md 1KB
DEVELOPMENT.md 858B
questions-help-support.md 769B
feature-request.md 504B
documentation.md 465B
pull_request_template.md 0B
go.mod 2KB
etcd_rdzv_diagram.png 425KB
pytorch-logo-flame.png 1010B
PROJECT 144B
etcd_rendezvous.py 48KB
api.py 45KB
api.py 33KB
api_test.py 25KB
local_elastic_agent_test.py 24KB
local_scheduler.py 22KB
api_test.py 21KB
api_test.py 21KB
launch.py 18KB
api.py 18KB
main.py 18KB
local_scheduler_test.py 17KB
standalone_session_test.py 15KB
launch_test.py 13KB
__init__.py 12KB
standalone_session.py 12KB
petctl.py 11KB
util.py 11KB
api.py 9KB
local_timer_test.py 9KB
api.py 9KB
petctl.py 9KB
conf.py 9KB
__init__.py 9KB
local_elastic_agent.py 8KB
autoscaling.py 8KB
etcd_server.py 8KB
api_test.py 7KB
api.py 5KB
argparse_util_test.py 5KB
__init__.py 5KB
distributed.py 5KB
redirects_test.py 4KB
error_handler.py 4KB
__init__.py 4KB
tail_log.py 4KB
local_timer.py 4KB
distributed_test.py 4KB
argparse_util.py 4KB
error_handler_test.py 4KB
tail_log_test.py 4KB
local_timer_example.py 4KB
__init__.py 4KB
cloudformation.py 3KB
test_utils.py 3KB
api_test.py 3KB
api.py 3KB
api_test.py 2KB
共 204 条
- 1
- 2
- 3
资源评论
工程求知者
- 粉丝: 31
- 资源: 4608
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功