一、
登录节点 swarm.whu.edu.cn (202.114.96.180)
文件传输 202.114.96.177
module avail
module load anaconda
module unload anaconda
squeue
srun -A supervisor --cpus-per-task=2 --gres=gpu:1 -p gpu -u python train.py
sbatch myjob.sbatch
scancel JobID
accountInfos supervisor
二、myjob.sbatch
myjob.sbatch:
#!/bin/bash
#SBATCH --account=supervisor
#SBATCH --partition=gpu
#SBATCH --nodes=1
#SBATCH --cpus-per-task=3
#SBATCH --gres=gpu:2
#SBATCH --time=72:00:00
module load anaconda
source ~/.bashrc
conda activate <env_name>
cd $SLURM_SUBMIT_DIR
python train.py
dos2unix myjob.sbatch
三、squeue
squeue 显示的信息包括以下内容
-
JobID,作业编号 -
PARTITION,作业在哪个分区上运行 -
NAME,作业名称,默认是作业脚本的名字 -
USER,作业的所有者 -
ST,作业当前状态,详见 Job State Codes,常见的有CG作业正在完成F作业失败PD作业正在等待分配资源R作业正在运行
-
TIME,作业已运行时间 -
NODES,作业占用的计算节点数 -
NODELIST,作业占用的计算节点名 -
(REASON),作业正在等待执行的原因,详见 Job Reason Codes,常见的有Asso<Resource>Limit作业申请的资源超过允许的最大数量Priority作业正在排队等待
显示的状态信息里包括了作业程序运行所在的计算节点名,使用 ssh 计算节点名 可以登录到计算节点。在计算节点上,使用 top 命令可以查看程序使用 CPU 的状况,如果是 GPU 程序,使用 nvidia-smi 命令可以查看程序使用 GPU 的状况。
四、流程
1.
申请账号,关联主账号,登陆,改密码
2.
module load anaconda
conda create -n <env_name> python=3.7
重启shell
conda activate <env_name>
3.配置用户 conda 目录
http://docs.hpc.whu.edu.cn/files/whuhpcdocs.wiki/installation/python.html
4.换镜像源
https://www.cnblogs.com/holaworld/p/14565431.html
5.安装软件包
装pytorch:conda install pytorch==1.8.0 torchvision==0.9.0 torchaudio==0.8.0 cudatoolkit=10.2 -c pytorch
批量导出:conda list -e > requirements.txt | pip freeze > requirements.txt
批量安装:conda install --yes --file requirements.txt | pip install -r requirements.txt | conda create --name <env_name> --file requirements.txt
6.运行程序
srun -A supervisor --cpus-per-task=2 --gres=gpu:1 -p gpu -u python train.py
sbatch myjob.sbatch
http://hpc.whu.edu.cn/index.htm
http://docs.hpc.whu.edu.cn/
http://hpc.whu.edu.cn/info/1008/1057.htm
https://blog.csdn.net/qq_36227457/article/details/105545309
https://blog.csdn.net/carry_hjr/article/details/108501644