没有合适的资源?快使用搜索试试~ 我知道了~
PyTorch Elastic :PyTorch分布式训练框架-python
共107个文件
py:23个
md:18个
yaml:18个
需积分: 6 4 下载量 43 浏览量
2021-06-18
20:40:29
上传
评论 2
收藏 554KB ZIP 举报
温馨提示
PyTorch Elastic :PyTorch分布式训练框架 TorchElastic TorchElastic 允许您以容错和弹性的方式启动分布式 PyTorch 作业。 有关最新文档,请参阅我们的网站。 要求 torchelastic 需要 python3 (3.6+) torch etcd 安装 pip install torchelastic Quickstart 容错在 4 个节点上,8 个训练器/节点,总共 4 * 8 = 32 个训练器。 在所有节点上运行以下命令。 python -m torchelastic.distributed.launch --nnodes=4 --nproc_per_node=8 --rdzv_id=JOB_ID --rdzv_backend=etcd --rdzv_endpoint=ETCD_HOST:ETCD_PORT YOUR_TRAINING_SCRIPT.py (--arg1 ...训练脚本参数.. .) 弹性在 1 ~ 4 个节点上,8 个训练器/节点,总共 8 ~ 32 个训练器。 作业在 1 个节点健康后立即开始,您
资源推荐
资源详情
资源评论
收起资源包目录
PyTorch Elastic :PyTorch分布式训练框架-python (107个子文件)
Dockerfile 1006B
Dockerfile 912B
Dockerfile 662B
Dockerfile 342B
Dockerfile 168B
.dockerignore 16B
fetch_and_run 2KB
.gitignore 334B
elasticjob_controller.go 7KB
job.go 7KB
expectation.go 4KB
pod.go 4KB
zz_generated.deepcopy.go 4KB
service.go 3KB
elasticjob_types.go 3KB
main.go 2KB
suite_test.go 2KB
util.go 1KB
groupversion_info.go 890B
constants.go 409B
install_etcd 1KB
torchelastic_agent_diagram.jpg 219KB
torchelastic_diagram.jpg 177KB
efs-setup.jpg 169KB
kubernetes.json 1KB
sample_specs.json 850B
LICENSE 1KB
Makefile 2KB
Makefile 891B
README.md 13KB
README.md 10KB
torchelastic-operator-design.md 8KB
design_doc.md 8KB
TROUBLESHOOTING.md 7KB
README.md 6KB
README.md 6KB
README.md 6KB
CODE_OF_CONDUCT.md 3KB
CHANGELOG.md 3KB
README.md 2KB
CONTRIBUTING.md 1KB
bug-report.md 1KB
DEVELOPMENT.md 858B
questions-help-support.md 769B
feature-request.md 504B
documentation.md 465B
pull_request_template.md 0B
go.mod 2KB
pytorch-logo-flame.png 1010B
PROJECT 144B
main.py 18KB
petctl.py 11KB
util.py 11KB
petctl.py 9KB
conf.py 9KB
autoscaling.py 8KB
__init__.py 4KB
cloudformation.py 3KB
s3.py 2KB
setup.py 2KB
session.py 2KB
create_redirect_md.py 2KB
suites.py 2KB
echo.py 1KB
util.py 1KB
__init__.py 444B
launch.py 386B
__init__.py 348B
__init__.py 230B
__init__.py 230B
__init__.py 230B
__init__.py 230B
__init__.py 230B
tsm_api.rst 1KB
index.rst 815B
tsm_driver.rst 792B
doc_push.sh 3KB
formatter_python.sh 2KB
go.sum 65KB
pytorch-logo-dark.svg 2KB
boilerplate.go.txt 202B
pip-delete-this-directory.txt 185B
requirements.txt 128B
requirements.txt 121B
requirements.txt 28B
user_data_rdzv 2KB
user_data_worker 3KB
elastic.pytorch.org_elasticjobs.yaml 6KB
sample_specs.yaml 1KB
imagenet.yaml 1KB
classy-vision.yaml 1KB
manager.yaml 802B
etcd.yaml 790B
role.yaml 772B
docker-compose.yaml 648B
kustomizeconfig.yaml 474B
leader_election_role.yaml 419B
kustomization.yaml 413B
elasticjob_editor_role.yaml 401B
elasticjob_viewer_role.yaml 339B
共 107 条
- 1
- 2
资源评论
吃肥皂吐泡沫
- 粉丝: 28
- 资源: 4587
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功