一.安装步骤
1.假设已经安装了linux、nvidia驱动、cuda、cudnn
2.节点之间互相ping通
3.所有节点之间拥有相同的用户名
4.节点之间无密码ssh登录
5.安装mpi,nccl2
6.共享文件系统nfs
7.每个节点拥有一样的环境,数据和脚本要放在主nfs中,其它节点挂靠
二.无密码ssh登录
- 在ubuntu中使用vim-tiny不方便,可卸载,安装vim-full(可使用sudo vim编辑)
sudo apt-get remove vim-common
sudo apt-get install vim
- 安装openssh-server
- 每台产生密钥:ssh-keygen
- touch authorized keys建立文本文件
- 公钥追加到authorized keys中
cat .ssh/id_rsa.pub >> .ssh/authorized keys
ssh localhost本机免密码登录
4.将master的公钥复制到每台slaves中
scp username@master:/home/username/.ssh/id_rsa.pub username@slave1:/home/username
将master公钥追加到salve1的authorized keys文件中,以下在slave1中操作
cat /home/username/id_rsa.pub >> .ssh/authorized keys
rm /home/username/id_rsa.pub
5.改权限
chmod 700 /home/username/.ssh
chmod 700 /home/username
chmod 600 /home/username/.ssh/authorized keys
6.在master中登录测试
登录:
ssh slave1
ssh slave2
退出:
logout slave1
logout slave2
7.以上master以及slave1,slave2都是修改主机名以及和ip的映射名称
修改主机名:/etc/hostname
主机和ip映射(每台机上修改):/etc/hosts,如192.168.137.129 master、192.168.137.130 slave1等
8.启动:sudo service ssh start;是否开启:sudo ps -e |grep ssh;重启:sudo service ssh restart
三.文件共享系统nfs安装配置
1.master:
- 安装:nfs-kernel-server
- 配置共享文件路径及权限:/etc/exports
- 重启服务:sudo service nfs-kernel-server restart
2.slave安装
- nfs-common
- 创建共享文件与master中配置的路径一致
- 挂载共享文件,将master共享目录挂载到slave上,手动挂载:sudo mount -t nfs master ip:/home/username/share /home/username/share
3.卸载挂载:sudo umount /home/username/share
开机自动挂载:在sudo gedit /etc/fstab中:master server ip:/home/username/share /home/username/share nfs defouts,-rnetdev 1 1