作业内容:
1:文字回答:总结对于编码器解码器框架以及反池化操作的理解
编码器解码器框架:编码器结构:编码器部分主要由普通卷积层和下采样层将特征图尺寸缩小,使其成为更低维的表征。目的是尽可能多的提取低级特征和高级特征,从而利用提取到的空间信息和全局信息精确分割。
解码器结构:解码器部分主要由普通卷积、上采样层和融合层组成。利用上采样操作逐步恢复空间维度,融合编码过程中提取到的特征,在尽可能减少信息损失的前提下完成尺寸输入输出。
反池化操作:编码器中每一个最大池化层的索引都存储了起来,用于之后在编码器中使用那些存储的索引来对相应特征图进行去池化操作。这有助于保持高频信息的完整性,但当对低分变率的特征图进行反池化时,它也会忽略临近的信息。它是一种上采样操作,其他上采样操作还有:插值、反卷积
2:文字回答:用文字描述论文中的Figure 2
该图显示了SegNet的网络结构,该网络编码器改编了VGG-16,去掉了最后的全连接层,保留了13个卷积层。有5个编码块,每个块后进行降采样,然后对特征图进行上采样,每个上采样后都有一个解码块,一共5个,最后输出特征图。该网络是一个完全对称的编码-解码结构。
3:代码实现:用SegNet实现对CamVid数据集的分割
4. 论文总结
SegNet: 算法结构:提出了SegNet网络,其核心的训练引擎包括一个encoder网络,和一个对称的decoder网络,并跟随一个用于Pixel-wise的分类层。
创新点:decoder进行上采样的方式,直接利用与之对应的encoder阶段中,在经过最大池化时保留的pooling index进行非线性上采样。
DeconvNet: 算法结构:提出了深度反卷积网络,编码部分使用VGG-16卷积层进行学习,解码器部分使用反卷积与反池化进行上采样
创新点:由反卷积和反池化组成上采样组件,逐像素分类完成预测。
1. 近期的很多cnn网络,他们的分割结果比较粗糙,原因是因为最大池化和降采样降低了特征图的分辨率
2.道路场景理解需要算法具有外形,形状和理解空间关系的能力。需要产生光滑的分割,网络也必须能识别小尺寸物体。