1. 安装tensorflow-gpu
查看cuda版本:Linux查看CUDA版本以及cudnn版本号
nvcc --version
10.0
安装python3.6、tensorflow-gpu=1.15.0
conda create --name tf1.15 python=3.6
pip install tensorflow-gpu=1.15.0
pip install opencv-python glob2 tqdm argparse numpy
测试是否安装成功:
import tensorflow as tf
hello = tf.constant("Hello TensorFlow")
sess = tf.Session()
print(sess.run(hello))
a = tf.constant(10)
b = tf.constant(32)
print(sess.run(a+b))
2. 训练
设置GPU的可见性:
export CUDA_VISIBLE_DEVICES=8
添加动态链接库路径:
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH/usr/local/cuda-10.0/lib64
参考ImportError: libcublas.so.10.0: cannot open shared object file: No such file or directory
屏蔽tensorflow的warning信息:
export TF_CPP_MIN_LOG_LEVEL=2
将batch-size开到32,会发生OOM:
(1) Resource exhausted: OOM when allocating tensor with shape[32,128,128,128] and type float on /job:localhost/replica:0/task:0/device:GPU:0 by allocator GPU_0_bfc
用 dmesg
命令查看内存分配情况,
3. 查看日志
除了使用 screen 守护进程,还可以使用tensorboard
查看tensorflow日志,必须指定文件夹,不能是文件
tensorboard --logdir=log
如果有多个tfevents文件,而只想展示其中某一个,可以为它单独新建一个文件夹
如果服务器6006端口没法查看,可以用frp内网穿透