没有合适的资源?快使用搜索试试~ 我知道了~
资源详情
资源评论
资源推荐
在 horovod 下使用多机多卡需要满足以下 3 个先决条件:
1. 不同机器可以访问相同的文件:nfs
2. 不同机器使用相同的训练环境: Docker
3. 不同机器可以 ssh 交互:ssh 免密登录
假设现在要在两台服务器 A 和 B 上多机多卡跑 horovod,A 为主 worker,下面
介绍怎么准备 horovod 的启动条件。
NFS
在 A 上的操作
# 在 A 上的操作
#1. 安装 nfs 服务器
sudo apt install nfs-kernel-server
#2. 编写配置文件
sudo vi /etc/exports
#/etc/exports 文件的内容如下
/data1/share *(rw,sync,no_subtree_check,no_root_squash)
#3. 创建共享目录
sudo mkdir -p /data1/share
#4. 重启 nfs 服务
sudo service nfs-kernel-server restart
#5. 常用命令工具:
#在安装 NFS 服务器时,已包含常用的命令行工具,无需额外安装。
#显示已经 mount 到本机 nfs 目录的客户端机器。
sudo showmount -e localhost
#将配置文件中的目录全部重新 export 一次!无需重启服务。
sudo exportfs -rv
#查看 NFS 的运行状态
sudo nfsstat
#查看 rpc 执行信息,可以用于检测 rpc 运行情况
家的要素
- 粉丝: 29
- 资源: 298
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0