zoukankan      html  css  js  c++  java
  • caffe使用(2)

    总体流程

    https://blog.csdn.net/hjimce/article/details/48933813

    https://zhuanlan.zhihu.com/p/24087905

    1、编译安装

    caffe编译完后,在caffe目录下会生成一个build目录,在build目录下有个tools,这个里面有个可执行文件caffe

    2、数据处理,转lmdb/leveldb

    在caffe-》example-》imagenet文件夹下面的一些脚本文件可以帮助我们快速生产相关的caffe所需的数据

    create_imagenet.sh这个文件可以帮我们快速的生成lmdb的数据格式文件

    <span style="font-size:18px;">#!/usr/bin/env sh
    
    # Create the imagenet lmdb inputs
    
    # N.B. set the path to the imagenet train + val data dirs
    
     
    
    EXAMPLE=.          # 生成模型训练数据文化夹
    
    TOOLS=../../build/tools                              # caffe的工具库,不用变
    
    DATA=.                  # python脚步处理后数据路径
    
     
    
    TRAIN_DATA_ROOT=train/  #待处理的训练数据图片路径
    
    VAL_DATA_ROOT=val/      # 带处理的验证数据图片路径
    
     
    
     
    
     
    
    # Set RESIZE=true to resize the images to 256x256. Leave as false if images have
    
    # already been resized using another tool.
    
    RESIZE=true   #图片缩放
    
    if $RESIZE; then
    
      RESIZE_HEIGHT=256
    
      RESIZE_WIDTH=256
    
    else
    
      RESIZE_HEIGHT=0
    
      RESIZE_WIDTH=0
    
    fi
    
     
    
    if [ ! -d "$TRAIN_DATA_ROOT" ]; then
    
      echo "Error: TRAIN_DATA_ROOT is not a path to a directory: $TRAIN_DATA_ROOT"
    
      echo "Set the TRAIN_DATA_ROOT variable in create_imagenet.sh to the path" 
    
           "where the ImageNet training data is stored."
    
      exit 1
    
    fi
    
     
    
    if [ ! -d "$VAL_DATA_ROOT" ]; then
    
      echo "Error: VAL_DATA_ROOT is not a path to a directory: $VAL_DATA_ROOT"
    
      echo "Set the VAL_DATA_ROOT variable in create_imagenet.sh to the path" 
    
           "where the ImageNet validation data is stored."
    
      exit 1
    
    fi
    
     
    
    echo "Creating train lmdb..."
    
     
    
    GLOG_logtostderr=1 $TOOLS/convert_imageset 
    
        --resize_height=$RESIZE_HEIGHT 
    
        --resize_width=$RESIZE_WIDTH 
    
        --shuffle 
    
        $TRAIN_DATA_ROOT 
    
        $DATA/train.txt      #标签训练数据文件
    
        $EXAMPLE/train_lmdb
    
     
    
    echo "Creating val lmdb..."
    
     
    
    GLOG_logtostderr=1 $TOOLS/convert_imageset 
    
        --resize_height=$RESIZE_HEIGHT 
    
        --resize_width=$RESIZE_WIDTH 
    
        --shuffle 
    
        $VAL_DATA_ROOT 
    
        $DATA/val.txt     #验证集标签数据
    
        $EXAMPLE/val_lmdb
    
     
    
    echo "Done."</span>

    3、编写模型 prototxt

    top输出 bottom输入 https://zhidao.baidu.com/question/1179823935177103179.html

    层参数:https://blog.csdn.net/teffi/article/details/78798513

    可视化: http://ethereon.github.io/netscope/quickstart.html

    4、编写solver

    Solver的流程:

    1.     设计好需要优化的对象,以及用于学习的训练网络和用于评估的测试网络。(通过调用另外一个配置文件prototxt来进行)

    2.     通过forward和backward迭代的进行优化来跟新参数。

    3.     定期的评价测试网络。 (可设定多少次训练后,进行一次测试)

    4.     在优化过程中显示模型和solver的状态

    在每一次的迭代过程中,solver做了这几步工作:

    1、调用forward算法来计算最终的输出值,以及对应的loss

    2、调用backward算法来计算每层的梯度

    3、根据选用的slover方法,利用梯度进行参数更新

    4、记录并保存每次迭代的学习率、快照,以及对应的状态。

    接下来,我们先来看一个实例:

    复制代码
    net: "examples/mnist/lenet_train_test.prototxt"
    test_iter: 100
    test_interval: 500
    base_lr: 0.01
    momentum: 0.9
    type: SGD
    weight_decay: 0.0005
    lr_policy: "inv"
    gamma: 0.0001
    power: 0.75
    display: 100
    max_iter: 20000
    snapshot: 5000
    snapshot_prefix: "examples/mnist/lenet"
    solver_mode: CPU
    复制代码

    接下来,我们对每一行进行详细解译:

    net: "examples/mnist/lenet_train_test.prototxt"

    设置深度网络模型。每一个模型就是一个net,需要在一个专门的配置文件中对net进行配置,每个net由许多的layer所组成。每一个layer的具体配置方式可参考本系列文文章中的(2)-(5)。注意的是:文件的路径要从caffe的根目录开始,其它的所有配置都是这样。

    也可用train_net和test_net来对训练模型和测试模型分别设定。例如:

    train_net: "examples/hdf5_classification/logreg_auto_train.prototxt"
    test_net: "examples/hdf5_classification/logreg_auto_test.prototxt"

    接下来第二行:

    test_iter: 100

    这个要与test layer中的batch_size结合起来理解。mnist数据中测试样本总数为10000,一次性执行全部数据效率很低,因此我们将测试数据分成几个批次来执行,每个批次的数量就是batch_size。假设我们设置batch_size为100,则需要迭代100次才能将10000个数据全部执行完。因此test_iter设置为100。执行完一次全部数据,称之为一个epoch

    test_interval: 500

    测试间隔。也就是每训练500次,才进行一次测试。

    base_lr: 0.01
    lr_policy: "inv"
    gamma: 0.0001
    power: 0.75

    这四行可以放在一起理解,用于学习率的设置。只要是梯度下降法来求解优化,都会有一个学习率,也叫步长。base_lr用于设置基础学习率,在迭代的过程中,可以对基础学习率进行调整。怎么样进行调整,就是调整的策略,由lr_policy来设置。

    lr_policy可以设置为下面这些值,相应的学习率的计算为:

      • - fixed:   保持base_lr不变.
      • - step:    如果设置为step,则还需要设置一个stepsize,  返回 base_lr * gamma ^ (floor(iter / stepsize)),其中iter表示当前的迭代次数
      • - exp:     返回base_lr * gamma ^ iter, iter为当前迭代次数
      • - inv:      如果设置为inv,还需要设置一个power, 返回base_lr * (1 + gamma * iter) ^ (- power)
      • - multistep: 如果设置为multistep,则还需要设置一个stepvalue。这个参数和step很相似,step是均匀等间隔变化,而multistep则是根据                                 stepvalue值变化
      • - poly:     学习率进行多项式误差, 返回 base_lr (1 - iter/max_iter) ^ (power)
      • - sigmoid: 学习率进行sigmod衰减,返回 base_lr ( 1/(1 + exp(-gamma * (iter - stepsize))))

    multistep示例:

    复制代码
    base_lr: 0.01
    momentum: 0.9
    weight_decay: 0.0005
    # The learning rate policy
    lr_policy: "multistep"
    gamma: 0.9
    stepvalue: 5000
    stepvalue: 7000
    stepvalue: 8000
    stepvalue: 9000
    stepvalue: 9500
    复制代码

    接下来的参数:

    momentum :0.9

    上一次梯度更新的权重,具体可参看下一篇文章。

    type: SGD

    优化算法选择。这一行可以省掉,因为默认值就是SGD。总共有六种方法可选择,在本文的开头已介绍。

    weight_decay: 0.0005

    权重衰减项,防止过拟合的一个参数。

    display: 100

    每训练100次,在屏幕上显示一次。如果设置为0,则不显示。

    max_iter: 20000

    最大迭代次数。这个数设置太小,会导致没有收敛,精确度很低。设置太大,会导致震荡,浪费时间。

    snapshot: 5000
    snapshot_prefix: "examples/mnist/lenet"

    快照。将训练出来的model和solver状态进行保存,snapshot用于设置训练多少次后进行保存,默认为0,不保存。snapshot_prefix设置保存路径。

    还可以设置snapshot_diff,是否保存梯度值,默认为false,不保存。

    也可以设置snapshot_format,保存的类型。有两种选择:HDF5 和BINARYPROTO ,默认为BINARYPROTO

    solver_mode: CPU

    设置运行模式。默认为GPU,如果你没有GPU,则需要改成CPU,否则会出错。

    注意:以上的所有参数都是可选参数,都有默认值。根据solver方法(type)的不同,还有一些其它的参数,在此不一一列举。

    5、运行

    命令行选项:

    https://www.cnblogs.com/denny402/p/5076285.html

    其中的<command>有这样四种:

    • train
    • test
    • device_query
    • time

    对应的功能为:

    train----训练或finetune模型(model),

    test-----测试模型

    device_query---显示gpu信息

    time-----显示程序执行时间

    其中的<args>参数有:

    • -solver
    • -gpu
    • -snapshot
    • -weights
    • -iteration
    • -model
    • -sighup_effect
    • -sigint_effect

    注意前面有个-符号。对应的功能为:

    -solver:必选参数。一个protocol buffer类型的文件,即模型的配置文件。如:

    # ./build/tools/caffe train -solver examples/mnist/lenet_solver.prototxt

    -gpu: 可选参数。该参数用来指定用哪一块gpu运行,根据gpu的id进行选择,如果设置为'-gpu all'则使用所有的gpu运行。如使用第二块gpu运行:

    # ./build/tools/caffe train -solver examples/mnist/lenet_solver.prototxt -gpu 2

    -snapshot:可选参数。该参数用来从快照(snapshot)中恢复训练。可以在solver配置文件设置快照,保存solverstate。如:

    # ./build/tools/caffe train -solver examples/mnist/lenet_solver.prototxt -snapshot examples/mnist/lenet_iter_5000.solverstate

    -weights:可选参数。用预先训练好的权重来fine-tuning模型,需要一个caffemodel,不能和-snapshot同时使用。如:

    # ./build/tools/caffe train -solver examples/finetuning_on_flickr_style/solver.prototxt -weights models/bvlc_reference_caffenet/bvlc_reference_caffenet.caffemodel
  • 相关阅读:
    NOIP知识点&&模板整理【更新中】
    qbxt DAY7 T4
    qbxt DAY7 T2
    qbxt DAY 6 T3 柯西不等式和拉格朗日不等式
    qbxt DAY4 T4
    qbxt DAY4 T3
    #98. 表达式计算 杂想
    扫描线入门学习笔记 (主要讲解代码实现)
    学OI要知道的基础知识(咕咕咕)
    主定理学习笔记(总结向)
  • 原文地址:https://www.cnblogs.com/zealousness/p/9517340.html
Copyright © 2011-2022 走看看