zoukankan      html  css  js  c++  java
  • centos7 hpc高性能计算集群配置(无密码访问、nfs文件共享)

    0、检查硬件的超线程

    由于模型运行时,每个进程几乎都会占用100%的CPU计算能力,开启超线程之后,每个进程最多使用每个核心50%的计算能力,导致程序运行变慢。

    [root@node1 ~]# grep siblings /proc/cpuinfo |uniq
    siblings    : 12
    [root@node1 ~]# grep cores /proc/cpuinfo |uniq
    cpu cores    : 12

     当siblings 数等于 cores  表示未开启超线程,符合条件

    当siblings 数不等于 cores 即 siblings 为 cores 2倍时 表示开启了超线程,如果上述两值不等,表示开启超线程。

    备注:计算机启用了超线程,需与硬件实施工程师联系,在BIOS里将超线程关闭

    1、查看操作系统版本

    cat /etc/redhat-release

    2、关闭SELinux

    修改/etc/sysconfig/selinux确保SELINUX=disabled,

    临时关闭:setenforce 0

    reboot服务器以生效

    3、关闭防火墙

    查看防火墙状态:

    systemctl status firewalld

    临时关闭防火墙:

    systemctl stop firewalld

    永久关闭防火墙:

    systemctl disable firewalld

    4、时间同步

     在crontab中添加如下

    01 23 * * * "systemctl stop ntpd.service;ntpdate -u time.windows.com;hwclock -w;systemctl start ntpd.service" 

    同步的时候,要把ntp服务停掉,同步之后再开启。

    手动执行命令

    systemctl stop ntpd.service
    ntpdate -u time.windows.com
    hwclock -w
    systemctl start ntpd.service

    5、修改节点名称

    hostnamectl set-hostname node5

    或者修改/etc/hostname,然后重启网卡:

    systemctl restart network.service

    6、配置集群主机列表

    修改/etc/hosts,加入ip和主机名

    192.168.126.39 manager
    192.168.126.40 node1
    192.168.126.41 node2
    192.168.126.42 node3
    192.168.126.43 node4

    7、root用户无密码访问

    注意点:所有节点的root密码必须一样

    ssh-keygen -t rsa  //.ssh下生成秘钥id_rsa,id_rsa.pub文件
    ssh-copy-id -i /root/.ssh/id_rsa.pub root@node1  //将公钥拷贝到node1的authorized_keys中,可以实现管理节点登陆到node1
    这个过程中要输入对方机器的密码
    cat authorized_keys // 将公钥加到authorized_keys文件里,
    scp -rp .ssh root@node4:/root/  //将管理节点的目录,拷贝到计算节点
    可以等所有计算节点的公钥都拷贝到管理节点的authorized_keyz中,然后再把管理节点的.ssh目录拷贝到计算节点下,实现所有集群无密码访问。

    8、nfs文件共享

    NFSv4会有一些不稳定的因素,导致客户端无法读写数据,一定使用v3

    下面配置文件代码可以关闭nfs的v4的版本

    [root@omgt1 ~]# vim /etc/sysconfig/nfs
    # Turn off v4 protocol support
    RPCNFSDARGS="-N 4"

    查看nfs版本,客户端命令:nfsstat -m

    /public from 12.12.12.101:/public
     Flags:    rw,relatime,vers=3,rsize=1048576,wsize=1048576,namlen=255,hard,proto=tcp,timeo=600,retrans=2,sec=sys,mountaddr=12.12.12.101,mountvers=3,mountport=56207,mountproto=udp,local_lock=none,addr=12.12.12.101

    服务端:

    (1)、服务端安装

    yum install nfs-utils

    只安装 nfs-utils 即可,rpcbind 属于它的依赖,也会自动安装上。

    (2)、配置共享目录

    编辑/etc/exports文件,添加1行:

    /public 192.168.126.* (rw,no_root_squash,no_all_squash,sync)

    将管理节点上的/public目录,共享给192.168.126.*计算节点

    权限:

    1. rw: 权限设置,可读可写。
    2. sync: 同步共享目录。
    3. no_root_squash: 可以使用 root 授权。
    4. no_all_squash: 可以使用普通用户授权

    (3)、服务开机自启动

    systemctl enable rpcbind.service
    
    systemctl enable nfs-server.service

    (4)、启动nfs服务、

    systemctl start rpcbind.service
    
    systemctl start nfs-server.service

    (5)、检查本地共享目录

    showmount -e localhost

    客户端:

    (1)、安装服务

    yum install nfs-utils

    (2)、设置rpcbind的开机自启动

    systemctl enable rpcbind.service

    (3)、启动rpcbind服务

    systemctl start rpcbind.service

    注意:客户端不需要启动nfs服务

    (4)、客户端创建目录,然后挂载

    mkdir /public
    mount -t nfs 192.168.126.39:/public /public

    用df -Th 检查是否已经挂载成功

    (5)自动挂载命令写到fstab中

           编辑/etc/fstab,加上

    192.168.126.39:/public /public nfs defaults 0 0

    9、普通用户model的无密码访问

    依次在管理节点和计算节点上创建用户model,密码保持一致

    groupadd -g 200 model,
    useradd -d /public/home/model -u 200 -g 200  model
    passwd model

    这里必须指明同一个组和用户的uid,否则不同的计算节点可能会创建不同的uid,到时候就会识别成不同的用户了

    检查方法:cat /etc/passwd,cat /etc/group

    id_rsa:私钥  id_rsa.pub:公钥

    ssh-keygen -t rsa     //.ssh下生成秘钥id_rsa,id_rsa.pub文件
    cat .ssh/id_rsa.pub >> .ssh/authorized_keys   //将公钥拷贝到authorized_keys中
    chmod 700 .ssh
    chmod 600 .ssh/authorized_keys
    chmod 600 .ssh/id_rsa
    chmod 644 .ssh/id_rsa.pub

    因为model账户在公共存储上,各个节点model用户用的同一个家目录,不需要同步.ssh 目录

    注意:/public/home/model 用户目录权限为 755 或者 700,就是不能是77x

    如果配置之后,还是不能无密码访问,需要进入/var/log/secure查看日志记录信息

    10、安装基础软件

    yum install -y ftp expect nfs-utils xterm gthumb OpenIPMI ipmitool sysstat numactl glibc glibc-static openssl ntpdate ntp dmidecode wget

    其他问题处理

    1、系统无法访问域名

    进入 /etc/sysconfig/network-scripts/,

    修改网卡配置ifcfg-eth0,增加:

    DNS1=8.8.8.8 

    DNS2=114.114.114,

    然后重启网卡:systemctl restart network

    2、yum配置

    进入yum目录:/etc/yum.repos.d,

    将管理节点2个repo拷贝过去

  • 相关阅读:
    java子类重写父类的要点
    转:swing 中paint与paintComponent的区别(jcomponent)
    证明二叉查找树所有节点的平均深度为O(logN)
    O(logN)中logN的底数
    Stanford依存句法关系解释
    java中的interface
    转:java中Vector的使用
    final类与final方法
    转:NLP+句法结构(三)︱中文句法结构(CIPS2016、依存句法、文法)
    英文语法分析树标注集
  • 原文地址:https://www.cnblogs.com/tiandi/p/13557424.html
Copyright © 2011-2022 走看看