zoukankan      html  css  js  c++  java
  • 《二》TensorRT之C++接口使用

    以下内容根据个人理解整理而成,如有错误,欢迎指出,不胜感激。

    更新:看了一个NVIDIA关于TensorRT 6的分享视频,官方建议使用TensorRT的Python接口进行开发,且TensorRT提供的Parser不太好用,建议自己实现API来构建网络。

    0. 写在前面

    本文首先根据TensorRT开发者指南梳理TensorRT的C++接口使用流程,然后基于TensorRT的官方例程“Hello World” For TensorRT来了解其具体使用方式。

    1. C++接口使用

    上一篇Blog中的内容可知,模型从导入TensorRT到执行Inference大致经过下面三个阶段:

    • Network Definition
    • Builder
    • Engine
      这三个阶段分别对应着TensorRT中一些重要的类和方法,下面分别来叙述。

    ILogger

    首先说明一个必须但不是很重要的类ILogger,它用于记录一些日志信息。
    在编程时,我们需要声明一个全局的ILogger对象gLogger,TensorRT中很多方法都需要它作为参数
    (貌似需要继承ILogger类来编写自己的Logger类)

    IBuilder

    IBuilder类应该算是最重要的一个类,在使用时,首先要使用TensorRT的全局方法createInferBuilder()来创建一个IBuilder类指针,然后由该指针调用IBuilder类方法创建Network和Engine类的指针。

    INetworkDefinition

    INetworkDefinition类即为网络定义,可通过IBuilder类方法createNetwork()返回其指针。

    ICudaEngine

    ICudaEngine类即为Engine,可通过IBuilder类方法buildCudaEngine()/buildEngineWithConfig()返回其指针。
    注意,可通过导入模型生成Engine和通过反序列化来加载Engine两种Engine生成方式。

    IParser

    IParser类对应着前文所述的三种不同的解释器,可根据需要来使用。
    IParser类方法parse()用于解析并加载模型及参数到TensorRT网络中(INetworkDefinition类)

    IExecutionContext

    Engine的运行需要一个运行时环境,createExecutionContext()方法为相应的ICudaEngine生成一个IExecutionContext类型的运行环境context。

    一个简单的代码示例如下:

    # builder
    IBuilder* builder = createInferBuilder(gLogger);
    
    # network
    INetworkDefinition* network = builder->createNetwork();
    
    # parser -> load params to network
    CaffeParser* parser = createCaffeParser();
    const IBlobNameToTensor* blobNameToTensor = parser->parse(args);
    
    # engine
    builder->setMaxBatchSize(maxBatchSize);
    IBuilderConfig * config = builder->createBuilderConfig();
    config->setMaxWorkspaceSize(1 << 20);
    ICudaEngine* engine = builder->buildEngineWithConfig(*network, *config);
    
    # serialize engine if necessary
    IHostMemory *serializedModel = engine->serialize();
    
    //# 如果是直接反序列化来获取engine,上述很多步骤都不需要
    //IRuntime* runtime = createInferRuntime(gLogger);
    //ICudaEngine* engine = runtime->deserializeCudaEngine(modelData, modelSize, nullptr);
    
    # inference
    IExecutionContext *context = engine->createExecutionContext();
    
    # 获取输入输出层的索引
    int inputIndex = engine->getBindingIndex(INPUT_BLOB_NAME);
    int outputIndex = engine->getBindingIndex(OUTPUT_BLOB_NAME);
    
    # 指针指向输入输出层在GPU中的存储位置
    void* buffers[2];
    buffers[inputIndex] = inputbuffer;
    buffers[outputIndex] = outputBuffer;
    
    # 异步执行inference
    context->enqueue(batchSize, buffers, stream, nullptr);
    
    # clear
    serializedModel->destroy();
    parser->destroy();
    network->destroy();
    config->destroy();
    builder->destroy();
    ...
    

    疑问一:IBuilder配置参数
    可根据需要来配置builder,其中比较重要的参数有两个:

    • maxBatchSize: TensorRT的输入是NHWC格式,maxBatchSize表明了N最大可为多少,如当N=8时,模型一次可处理8张图片,速度要大于调用8次、每次处理一张图片的总时间;
    • maxWorkspaceSize:每一层算法的运行都需要临时的存储空间,该参数限制了每一层能够使用的最大临时存储空间。

    疑问二:runtime vs context
    在读开发者指南时,这两个概念有点乱,这里区分一下:

    • runtime: 直接反序列化获取engine时,需要定义该类,此时不需要前面builder等相关的操作
    • context:每一个engine的运行都需要context,一个engine可有多个context

    注意一:CUDA context
    从开发者指南中可知,尽管可以使用默认的CUDA context而不显式创建它,但官方不建议这么做,推荐在创建一个runtime或builder对象时,创建并配置自己的CUDA context。

    2. “Hello World” For TensorRT

    理清上述流程后,该例子的cpp源码不难理解,具体细节这里不再阐述。

  • 相关阅读:
    Nginx负载均衡配置
    云鹏在美团八年工作总结
    尽量不要让儿女从事这3种工作,钱再多也别做,坚持再久也没前途
    Nginx 配置ip_hash
    postgresql获取表结构,表名、表注释、字段名、字段类型及长度和字段注释
    更快的Maven来了,我的天,速度提升了8倍!
    Nginx负载均衡配置及算法详解
    nginx负载均衡策略:ip_hash、url_hash
    Windows Phone实用开发技巧(41):解决WebBrowser中显示黑色背景网页闪屏
    Windows Phone实用开发技巧(32):照片角度处理
  • 原文地址:https://www.cnblogs.com/vh-pg/p/11680658.html
Copyright © 2011-2022 走看看