内存、时间复杂度、CPU/GPU以及运行时间

zoukankan html css js c++ java

内存、时间复杂度、CPU/GPU以及运行时间
- 衡量 CPU 的计算能力：
  
  比如一个 Intel 的 i5-2520M @2.5 Ghz 的处理器，
  则其计算能力 2.5 * 4（4核） = 10 GFLOPS
- FLOP/s，Floating-point operations per second，每秒峰值速度，
  
  一个 MFLOPS（megaFLOPS）等於每秒一佰万（=10^6）次的浮点运算，
  
  一个 GFLOPS（gigaFLOPS）等於每秒拾亿（=10^9）次的浮点运算，
  
  一个 TFLOPS（teraFLOPS）等於每秒万亿（=10^12）次的浮点运算，
  
  一个 PFLOPS（petaFLOPS）等於每秒千万亿（=10^15）次的浮点运算，
  
  一个 EFLOPS（exaFLOPS）等於每秒百亿亿（=10^18）次的浮点运算。
0. 初步

局部变量即内存，也即空间复杂度；当某算法对空间复杂度也要求严格时，如果仍要存储某些局部变量，比如棋盘对应的二维数组，当棋盘的大小显著时，比如 210×210 此时就要考虑内存的问题，也即是否有必要维护这样的一份内存数据；

1. 量化分析

假设我们将矩阵和一个向量相乘：

如果 M = 1024，N = 512，
- 那么我们需要读取和存储的字节数是：
  
  4 bytes * (1024*512 + 512 + 1024) = 2.1e+06
- 计算次数是：
  
  1024*(512+512) = 1.0e+06
- 如果我们有块6 TFLOP/s 的 GPU，带宽 300GB/s 的内存，那么运行总时间是：
  
  max{2.1e6 bytes /(300e9 bytes/s),1e6 FLOPs/(6e12 FLOP/s)}=max{7μs,0.16μs}
  
  这意味着处理过程的瓶颈在于从内存中复制或向内存中写入消耗的7μs，而且使用更快的 GPU 也不会提升速度了。你可能会猜到，在进行矩阵-矩阵操作时，当矩阵/向量变大时，这一情况会有所好转。
查看全文

相关阅读:
链表VS数组
 数组VS集合
 最好、最坏、平均、均摊时间复杂度
 代码时间、空间复杂度分析
 “echo >”和“echo >>”的区别
 两数之和
 hadoop学习之----------IntelliJ IDEA上实现MapReduce中最简单的单词统计的程序(本地和 hadoop 两种实现方式)
Ubuntu16.04中解决关于The Internet Topology Zoo 的gml文件的读取并画图的问题
 Ubuntu16.04解决Ubuntu Sofware打开后无反应
 Ubuntu16.04中如何启用floodlight的一种方式

原文地址：https://www.cnblogs.com/mtcnn/p/9423877.html

内存、时间复杂度、CPU/GPU以及运行时间

0. 初步

1. 量化分析