zoukankan      html  css  js  c++  java
  • TensorRT深度学习训练和部署图示

    TensorRT深度学习训练和部署

    NVIDIA TensorRT是用于生产环境的高性能深度学习推理库。功率效率和响应速度是部署的深度学习应用程序的两个关键指标,因为它们直接影响用户体验和所提供服务的成本。Tensor RT自动优化训练好的神经网络,以提高运行时性能,与仅使用通用CPU的深度学习推理系统相比,Tesla P100 GPU的能源效率(每瓦性能)提高多达16倍(见图1)。图2显示了使用TensorRT和相对复杂的GoogLenet神经网络架构运行NVIDIA Tesla P100和K80进行推理的性能。

    本文将展示如何使用Tensor RT,在基于GPU的部署平台上,从经过训练的深度神经网络中,获得最佳效率和性能。

     

    图1:NVIDIA Tensor RT通过Tesla P100上的FP16,为神经网络推理提供了16倍的高能效。

     

     图2:NVIDIA Tensor RT通过Tesla P100上的FP16提供了23倍的神经网络推理性能。

    用深度神经网络解决有监督的机器学习问题,涉及两个步骤。

    1. 第一步是使用GPU在大量标记数据上训练深度神经网络。在此步骤中,神经网络学习了数百万个权重或参数,从而使其能够映射输入数据示例,以纠正响应。训练要求迭代前后遍历网络,因为相对于网络权重,目标函数被最小化了。通常会对几种模型进行训练,并针对训练期间未看到的数据验证准确性,以便估算实际性能。
    2. 下一步-推论-使用训练好的模型对新数据进行预测。在此步骤中,训练好的模型,用于在生产环境中运行的应用程序,例如数据中心,汽车或嵌入式平台。对于某些应用,例如自动驾驶,推理是实时进行的,因此高吞吐量至关重要。

       

       

       

       

       

  • 相关阅读:
    简单的测试用例计划放法
    黑盒测试用例设计方法-等价类划分
    Redis净化板
    爬虫部署与Django
    怎样实现前端的优化
    关于Apache简介笔记
    yield生成器的经典案例
    石头剪刀布
    函数内是否可以修改传递进来的列表
    不定长参数的传递
  • 原文地址:https://www.cnblogs.com/wujianming-110117/p/14249742.html
Copyright © 2011-2022 走看看