1、语义分割
1.1 DeepLab全卷积网络
①基本结构
1)优化后的DCNN+传统的CRF图模型
②新的上采样卷积方案
1)带孔(hole)结构的膨胀卷积(Atrous/Dilated convolution)
③多尺度图片表达
1)Atrous空间金字塔池化(Atrous Spatial Pyramid Pooling)
④边界分割的优化
1)使用全连接条件随机场CRF进行迭代优化
1.1.1 结构
①模块1:DCNN输出粗糙的分割结果
②模块2:全连接CRF精化分割结果
1.1.2 孔(Hole)算法
①解决原始FCN网络的输出低分辨率问题(100padding)
②降低池化层的降采样倍数
1)VGG16网络Pool4和Pool5层的步长:2->1
2)减小降采样倍数:32->8
3)后续卷积核的感受野(Field-Of-View)会受影响(变小)
4)这些卷积核无法用来fine-tune
③更改卷积核的结构->加孔(Hole)
1)无上采样功能
2)恢复感受野,可以用来fine-tune
3)保证了网络最终的高分辨率输出(仅8倍降采样)
④卷积核结构
1)尺寸不变(3x3),元素间距变大(1->2)
2)步长不变(1)
⑤优势
1)参数数量不变
2)计算量不变
3)高分辨输出
⑥采用层
1)conv5:孔尺寸2
2)conv6:孔尺寸4
1.1.3 膨胀卷积(Atrous/Dilated convolution)
①孔算法的正式名称
②与降低池化层步长配对使用,以取代上采样反卷积
③孔尺寸->Rate
1)Rate越大,感受野越大
④膨胀卷积效果
1)稀疏特征提取:x2降采样->7x7卷积->x2上采样
2)稠密特征提取:7x7膨胀卷积
⑤优势
1)参数&计算量一样
2)灵活控制分辨率
1.1.4 Atrous空间金字塔池化(Atrous Spatial Pyramid Pooling)
①不同感受野(rate)捕捉不同尺度上的特征
②在conv6层引入4个并行膨胀卷积
1)Rate:6,12,18,24
③4个并行膨胀卷积
1)感受野:13x13,25x25,37x37,49x49
⑤Fc6->Fc7->Fc8
1)深度:4096->2014->类别数量
2)卷积核:3x3->1x1->1x1
⑥融合:概率相加
1.1.5 全连接CRF
①作用:通过迭代精化分割结果(恢复精确边界)
②输入
1)首次:FCN网络输出结果的8倍双线性插值
2)非首次:上一轮迭代结果
③能量计算基于图片RGB像素值
1.1.6 结果
①第一行:飞机类别的分值(softmax之前)
②第二行:飞机类别的概率值(softmax之后)
1.1.7 语义分割数据集
①Pascal VOC-2012
1)20个物体类别
人类
动物(鸟、猫、牛、狗、马、羊)
交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车)
室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)
2)像素级标签9993张图片
②MSCOCO
1)80个类别
2)COCO-stuff扩展集:172类别
Object:80
Stuff:91
Unknown:1
3)主要用于:
实例级别的分割(Instance-level)
图片描述(Image Captioning)
4)http://mscoco.org/
③Cityscapes
1)30个类别
2)标注:
5000张像素标注(pixel level)
20000张多边形标注(instance level)
3)辅助/自动驾驶中的语义场景理解
4)采集于50个城市
5)https://www.cityscapes-dataset.com