受 加速比由很多因素决定,软件、硬件、算法、程序员水平 几乎所有深度学习的研究者都在使用GPU 熟悉深度学习的人都知道,深度学习是需要训练的,所谓的训练就是在成千上万个变量中寻找 最佳值的计算。这需要通过不断的尝试实现收敛,而最终获得的数值并非是人工确定的数字,而是 一种常态的公式。通过这种像素级的学习,不断总结规律,计算机就可以实现像像人一样思考。如 今,几乎所有的深度学习(机器学习)研究者都在使用GPU进行相关的研究。当然,我说的是“几乎” 。除了GPU之外,包括MIC和FPGA也提供了不同的解决方案。NVIDIA如何看待不同的硬件架构对深度 学习的影响,又是如何评价这些技术的呢- NVIDIA中国区解决方案架构工程总监罗华平认为:“技术发展和科技的发展,是需要不同的技 术一起来参与。无论是GPU也好、FPGA也好或者是专用的神经网芯片也好,它的主要目的都是推动深 度学习(机器学习)这个方向的技术发展。那么我们在初期,确实可以尝试不同的技术,来探讨哪种 技术可以更好的适合这项应用。从目前来看,深度学习大量的使用,主要集中在训练方面。那么在 这个领域,GPU确实是非常适合的,这也体现在所有的这些工业界的大佬如BAT、谷歌,Facebook等 等,都在使用GPU在做训练。”而除了训练之外,在实际的应用方面,NVIDIA也正在结合中国地区 IDC机房普遍具备的功耗、网络等特点,“考虑是否设计低功耗的GPU,来满足用户的需求”。 除了硬件方面的因素之外,英伟达中国区技术经理赖俊杰也从软件方面解答了GPU对于深度学习 应用的价值。首先从深度学习应用的开发工具角度,具备CUDA支持的GPU为用户学习Caffe、Theano 等研究工具提供了很好的入门平台。其实GPU不仅仅是指专注于HPC领域的Tesla,包括Geforce在内 的GPU都可以支持CUDA计算,这也为初学者提供了相对更低的应用门槛。除此之外,CUDA在算法和程 序设计上相比其他应用更加容易,通过NVIDIA多年的推广也积累了广泛的用户群,开发难度更小。 最后则是部署环节,GPU通过PCI-e接口可以直接部署在服务器中,方便而快速。得益于硬件支持与 软件编程、设计方面的优势,GPU才成为了目前应用最广泛的平台。 深度学习发展遇到瓶颈了吗- 我们之所以使用GPU加速深度学习,是因为深度学习所要计算的数据量异常庞大,用传统的计算 方式需要漫长的时间。但是,如果未来深度学习的数据量有所下降,或者说我们不能提供给深度学 习研究所需要的足够数据量,是否就意味着深度学习也将进入“寒冬”呢-对此,赖俊杰也提出了另 外一种看法。“做深度神经网络训练需要大量模型,然后才能实现数学上的收敛。深度学习要真正 接近成人的智力,它所需要的神经网络规模非常庞大,它所需要的数据量,会比我们做语言识别、 图像处理要多得多。假设说,我们发现我们没有办法提供这样的数据,很有可能出现寒冬”。 不过他也补充认为——从今天看到的结果来说,其实深度学习目前还在蓬勃发展往上的阶段。 比如说我们现阶段主要做得比较成熟的语音、图像方面,整个的数据量还是在不断的增多的,网络 规模也在不断的变复杂。现在我没有办法预测,将来是不是会有一天数据真不够用了。 对于NVIDIA来说,深度学习是GPU计算发展的大好时机,也是继HPC之后一个全新的业务增长点 。正如Pandey所提到的那样,NVIDIA将世界各地的成功经验带到中国,包括国外的成功案例、与合 作伙伴的良好关系等等,帮助中国客户的快速成长。“因为现在是互联网的时代,是没有跨界的时 代,大家都是同等一起的。” K40的显存频率也从之前的5.2GHz提高到了6GHz,显存位宽依然是384bit。带宽从之前的250GB/s提 高到了288GB/s,不过TDP继续维持K20X的235W水准,整体控制的很不错。 最大的变化要属显存容量了,之前K20X标配的是6GB,此次K40搭配的是12GB显存,不过显存颗 粒的数量并没有增加,因为NVIDIA这次使用的是4Gb显存,此前包括桌面及Tesla、Quadro产品线上 使用的显存颗粒都是2Gb容量,因此在维持24片显存的情况下Tesla K40的总容量提升到了12GB (24x4Gb),而K20X只有6GB(24x2Gb)。 还有一个值得注意的变化,那就是Tesla K40终于实现PCI-E 3.0支持了,虽然之前的Tesla K nvidia tesla k40 价格 |