zoukankan      html  css  js  c++  java
  • CPU与GPU性能的比较报告

    运行时间分析

    不同的模型在cpu和gpu下的时间差异较大,一般来说gpu会比cpu快5-20倍。我们选用了最常用的inception v3的分类模型,输入图片尺寸为:3x299x299。

    GPU

    在一块P100GPU(显存16276MiB),性能如下:

    由上图可见,随着进程数目的增大耗时会线性增加。

    所以:如果服务中在同个卡上多开进程只是服务连接/下载图片的并发实现了并发提速(neuron框架中连接建立、下载图片、算法处理是并发独立的,可近似认为互不影响);算法的吞吐量基本不变。而且从RT角度考虑单进程较好独占卡(任务可以占据Volatile GPU-Util 90%左右的情况下)。

    当然,如果RT满足要求,卡上可以同时部署其他任务。

    CPU

    Intel(R) Xeon(R) CPU E5-2620 v3 @ 2.40GHz 24核服务器下。TF默认为尽可能的占用所有的核,真正的neuron服务也是尽可能的占用所有的核,所以请求量大的时候RT会上升。

    24核服务器下,QPS呈现log趋势。考虑RT,算法可以开启10个进程较优。此时CPU使用率已经逼近2400%。当然如果RT有限制,则采用更小的并发/更多的机器

    PS:一个进程下CPU占用率1600% 2个并发2000% 3个并发2100% 4个并发2200% 5个并发2250% 6个并发已达2280%。

    CPU more

    从另个角度来看,通过改变进程使用的核数统计RT值。这部分和前面CPU部分很类似。

    对于这个分类任务,10核以后性能基本不会提升了(并发就到这水平了)。

    如果要保证一定的RT,就要保证每个请求可以拿到足够多的核

    总结

    单GPU QPS可以达到55;24核CPU的QPS可以达到24左右。但是GPU的TR要远低于CPU,不过GPU并发数上来,RT也会线性增加。

    按照目前线上一个GPU的成本约等于96个CPU核,CPU性价比还是远优于GPU的

    PS:评测中P100性能较好价格较贵、CPU E5-2620已经较为(古老)便宜了。

  • 相关阅读:
    【002】有符号数据传递给无符号变量
    C++第二课 数据类型和常变量
    【001】冒泡排序
    iOS中为网站添加图标到主屏幕以及增加启动画面
    _stdcall,_cdecl区别
    解决表格里面使用text-overflow后依旧不能隐藏超出的文本
    windows7 64位下运行 regsvr32 注册ocx或者dll的方法
    在sqlite中使用索引
    ASP中 Request.Form中文乱码的解决方法
    html——标签基础
  • 原文地址:https://www.cnblogs.com/houkai/p/9671543.html
Copyright © 2011-2022 走看看