tensorflow 运行效率 GPU memory leak 问题解决

zoukankan html css js c++ java

tensorflow 运行效率 GPU memory leak 问题解决
问题描述：

　　Tensorflow 训练时运行越来越慢，重启后又变好。

　　用的是Tensorflow-GPU 1.2版本，在GPU上跑，大概就是才开始训练的时候每个batch的时间很低，然后随着训练的推进，每个batch的耗时越来越长，但是当我重启后，又一切正常了？

问题查找：

　　一开始查到的原因是batch_size 和 batch_num的问题，通过python yield 数据生成器解决，确保内存每次处理的数据确定是batch_size大小，但是发现运行效率还是不高，所以查阅google的一些资料找到如下解决办法。

问题解决：

　　因为在运行时的session里定义了tf的op导致的。这样每一次迭代都会在graph里增加新的节点，导致memory leak，程序越来越慢，最后强行退出。至于在运行时程序有没有增加节点，可以在session里定义graph.finalize()锁定graph，如果跑的时候报错就证明程序在动态添加节点导致的越来越慢。

修改前代码如下：
def one_hot(labels): labels_num = [strnum_convert(i) for i in labels ] batch_size = tf.size(labels_num) labels = tf.expand_dims(labels_num, 1) indices = tf.expand_dims(tf.range(0, batch_size, 1), 1) concated = tf.concat([indices, labels],1) onehot_labels = tf.sparse_to_dense(concated, tf.stack([batch_size, 8]), 1, 0) #all_hot_labels = tf.reshape(onehot_labels,(1,612)) return onehot_labels
修改后代码如下：
def one_hot(labels): one_hot_label = np.array([int(i == int(labels)) for i in range(8)])
... ... return one_hot_label
     大家可以看到罪魁祸首就是就是这个tf版本的one_hot操作，修改成numpy版本完美解决运行效率问题。

思考：

        方法二：

　　上面问题的原因是GPU memory leak，我们也可以用的是一种曲线救国的方法；每隔1000个batch，当速度明显变慢的时候，就reset graph,然后才重新build模型，再load之前储存的参数tf.reset_default_graph()self.build_model()；

　　方法三：

        我们在用tensorflow进行数据集制作的时候，发现当我运行eval()函数的时候，程序会越跑越跑慢，eval()生成的数值没有删除，然后会越占越多内存，解决办法是使用del命令就行，一般写成。
data=Var.eval() #save data to file del data
查看全文

相关阅读:
[装]JMX监控Hadoop
[转]JMX的Hello World
[转]Linux下查看CPU信息、机器型号等硬件信息
 [转] pom.xml 配置详解
 HBase TableExistsException: hbase:namespace
[转]HBase高可用性的新阶段
 [转]Hadoop 读写数据流
 HBase——强一致性详解
 HBase Master高可用（HA）
Hadoop HA on Yarn——集群启动

原文地址：https://www.cnblogs.com/Libo-Master/p/8043164.html