【Stochastic Downsampling】2018-CVPR-Stochastic Downsampling for Cost-Adjustable Inference and Improved Regularization in Convolutional Networks-论文阅读

zoukankan html css js c++ java

【Stochastic Downsampling】2018-CVPR-Stochastic Downsampling for Cost-Adjustable Inference and Improved Regularization in Convolutional Networks-论文阅读
Stochastic Downsampling

2018-CVPR-Stochastic Downsampling for Cost-Adjustable Inference and Improved Regularization in Convolutional Networks

来源：ChenBong 博客园
- Institute：NTU，Adobe，Alibaba，NVIDIA
- Author：Jason Kuen，Xiangfei Kong，Gang Wang
- GitHub：https://github.com/xternalz/SDPoint 10+
- Citation： 7
Introduction

在预先定义的 downsample 结构的基础上，在额外插入一个 downsample，来实现推理时的计算开销自适应；

训练方式：每个batch随机采样额外 downsample 插入的位置 p 和下采样比例 r：

Related Work

Cost-adjustable Inference

计算量自适应：
- “intermediate” classifiers+early exit：通过加入多个中间分类器+提前退出，来实现推理自适应（subnet）
- parallel subnetworks or “paths”：同时训练不同规模的子网（subnet）
- input scale：使用不同的输入分辨率（fullnet）
样本自适应：
- harder vs easier
Motivation

现有的推理自适应的工作大多都是使用全部权重的一部分子集（选择部分层/部分宽度，subnet）来实现推理量的自适应，没有充分利用全部网络参数

现有的经典网络结构中，downsample（pool / strid conv）都是由网络结构本身预先定义好的，如果不限制 downsample 的位置，允许网络在任意位置进行 downsample，可以实现使用同一套网络参数来实现不同的推理开销，且充分利用了全部网络参数

Contribution

Method

在预先定义的 downsample 基础上，在额外插入一个 downsample，插入的位置 (p∈mathbb Z)，比例 (r in mathbb R) 在每个batch训练之前随机选择

(P = {0, 1, 2, ...,N-1,N})

(R = {0.5, 0.75})

p 越小（插入位置越靠前），r 越小（下采样比例越高），那么网络的开销就节省的多，反之节省得少；

如果 p=0，可以有2种含义，1. 相当于 input scale；2. 相当于不插入额外的 downsample 相当于cost=1.0；本文用的是第2种（感觉其实用第1种更合理，cost=1.0 只要r=1.0即可）

细节

downsample operation

其中 downsample 的操作记为 D(·)，D(·)可以是：pooling（avg/max），stride conv。& stride conv 会引入额外参数和计算量

我们选择 avg pool 而不是 stride conv 和 max pool，因为：
- stride conv 虽然用来downsample的效果较好，但引入了额外的参数和计算量，我们想排除额外的计算开销的影响。
- 且 stride conv 不能使用任意的下采样率 r
- max pool 的非线性更强（更多地保留正值），导致：1. 对 baseline 不公平，2. &&使梯度消失问题更严重
对于非整数的 avg pool，使用一种叫 Spatial Pyramid Pooling 的方法

shortcut

对于有残差连接的网络，插入位置在不同 residual block 之间，且 D(·) 作用在 residual add 之后

(p, r) 随机采样频率

每个batch 随机采样一组（p，r）进行训练

downsample 数量

可以插入多个额外的 downsample，但组合情况过多，因此我们只插入1个额外的downsample

ratio r
- r 是从离散的集合R中均匀采样
- r 不能太小，会影响收敛性
- (|R|) 不能太大，太大会导致组合太多
综上，我们取 (R = {0.5, 0.75})

BN

每组 (p, r) 独立计算BN

Experiments

CIFAR-10/100

其他cost-adjustable方法，BN

Early-Exits (EE)

按照论文 BranchyNet 的方法设计多个中间分类器，允许提前退出

图2可以看出EE的效果都比较差，原因：
- 没有利用完整的网络参数
- Early-Exit 迫使CNN在浅层就具备分类能力（学习高级特征），导致深层无法有效学习
Multiscale Training (MS)

对 input 做 scale

Uniform Batch Normalization (UBN)

使用统一的BN

CIFAR-10/100 SOTA

SDPoint取的是所有 instance 中最好的一个：

SDPoint在没有引入额外参数/计算开销的情况下，实现了sota，且在cifar10中基本上都节省了计算量，可能是对于cifar10数据集无需长期保持较高的分辨率，可以提前downsample，揭示了CNN 中 “one-size-fits-all” 的缺点

ImageNet

2个baseline：ResNeXt-d101-c32 和 PreResNet-d101：

Ablation Study
- alternate：插入点减半（间隔插入）
- 075： (R = {0.75})
随机性降低，效果变差

ImageNet SOTA

没有引入新的参数/计算量就达到了sota，在之前是需要2倍的计算量才能达到

SACT是跳过部分block，从而节省参数的一种方法

可视化

Conclusion

Summary
- 本文在预先定义的 downsamp 基础上再随机添加1个downsamle，研究的是插入位置，还可以研究固定位置，r可变（有点像 ShapeAdaptor 做的）
To Read

Reference
查看全文

相关阅读:
c++ 从vector扩容看noexcept应用场景
 c++11-17 模板核心知识（十一）—— 编写泛型库需要的基本技术
 动态链接的PLT与GOT
c++11-17 模板核心知识（十）—— 区分万能引用(universal references)和右值引用
 Golang性能分析与优化
 c++11-17 模板核心知识（九）—— 理解decltype与decltype(auto)
[LuoguP4808][CCC 2018]平衡树(数论分块+记忆化搜索)(有复杂度证明)
[NOI2016]区间(线段树+尺取法)
[BZOJ4316]小C的独立集(仙人掌+树形DP)
[CTSC2002]灭鼠行动(模拟)

原文地址：https://www.cnblogs.com/chenbong/p/14438033.html

【Stochastic Downsampling】2018-CVPR-Stochastic Downsampling for Cost-Adjustable Inference and Improved Regularization in Convolutional Networks-论文阅读

Stochastic Downsampling

Introduction

Related Work

Cost-adjustable Inference

Motivation

Contribution

Method

细节

downsample operation

shortcut

(p, r) 随机采样频率

downsample 数量

ratio r

BN

Experiments

CIFAR-10/100

其他cost-adjustable方法，BN

Early-Exits (EE)

Multiscale Training (MS)

Uniform Batch Normalization (UBN)

CIFAR-10/100 SOTA

ImageNet

Ablation Study

ImageNet SOTA

可视化

Conclusion

Summary

To Read

Reference