zoukankan      html  css  js  c++  java
  • tensorflow监控指标获取

    我觉得有不少人会需要tensorflow真正的执行时间和ps,worker之间的通信时间吧,这里是我做的一些尝试,对于执行时间而言,还是比较好得到的,通信时间怎么计算呢?

    1. netperf工具

    这是我从一篇论文中看到的工具,但是!

    这个工具也是算作分布式环境下,测试的一个利器

    不过,就我现在的使用体验,这是个测试工具,而非监控工具,为什么?我想知道的是,程序运行期间,有多少数据收发,通讯时间是多少,但是这里的话,能拿到的指标是,客户端向服务器发送了多大的包,根据响应时间测算出带宽是多少,这个测试功能>监控功能。

    netperf -t TCP_STREAM -H node6 -c -C

    不过还是可以用来监控cpu使用率的,小c是本机的使用率;大C是远程服务器的使用率。

    转向了tensorboard监控吧...

    2.tensorboard

    tensorboard安装还是很简单的,就pip install tensorboard即可

    监控也很简单,就找到log日志文件的地方:

    tensorboard --logdir=/home/zc/dzx/models_cifar10/

    但是这监控指标也太少了

    去官网看了一下,要tensorboard+profiler

    3. tensorboard+profiler

    功能还是不少的:而且都是我想要的

    看了一下环境要求:

    但是现在的分布式tensorflow代码都是tensorflow1.x的,对于tensorflow2.0的要求,我只能说尝试过,但是真的没调通...

    4. 最后怎么办?

    你能知道服务器带宽吗?iftop

    能知道一段时间内ps收发了多少数据吗?

    以上搞定,就是有些麻烦

     安装iftop: 

    yum install iftop –y

    python pip : command not found解决方案:

    yum install epel-release

    yum install -y python-pip

  • 相关阅读:
    SSH学习-struts2整合spring报错'Could not open ServletContext resource [/WEB-INF/applicationContext.xml]'
    YAML学习
    配置composer代理
    Windows下配置PHPUnit(pear已弃用,使用phpunit.phar)
    算法-第四版-练习1.3.9解答
    算法-第四版-练习1.3.10解答
    算法-第四版-练习1.3.11解答
    算法-第四版-练习1.3.12解答
    算法-第四版-练习1.3.13解答
    算法-第四版-练习1.3.14解答
  • 原文地址:https://www.cnblogs.com/o-din/p/13798257.html
Copyright © 2011-2022 走看看