图像分割

zoukankan html css js c++ java

图像分割

本文是对论文的解读与思考

论文： Towards End-to-End Lane Detection: an Instance Segmentation Approach

introduction

该论文提出了一种端到端的实例分割方法，用于车道线检测；

论文包含 LaneNet + H-Net 两个模型网络，其中 LaneNet 是一种将语义分割和像素矢量化结合起来的多任务模型，语义分割用来分割车道线与背景，像素矢量化用于把属于同一条车道线的像素聚类在一起，

H-Net 是个小网络，用于预测转换矩阵 H，使用 H 对同一条车道线的所有像素点进行重新建模(论文中是使用 y 预测 x)

LaneNet

之前提到大部分图像分割的网络都包含 encode 和 decode 两部分，LaneNet 也不例外，不同的是 LaneNet 包含了两个分支，如下图

下面的分支 Segmentation branch 是常规的语义分割，用于分割车道线和背景，实现的是二分类；

上面的分支 Embedding branch 用于像素的矢量化，把每个像素用一个高维向量表示(类似于 word embedding)，使得像素可以通过聚类把不同车道线分开；

后面那个 X 不必在意，只是结合的意思；

网络结构

LaneNet 是基于 ENet 的 Encode-Decode 网络结构，ENet 网络如下图

如图所示，ENet 由 5 个 stage 组成， stage 1 2 3 属于 Encode，stage 4 5 属于 Decode；

LaneNet 中语义分割和 Embedding 两个任务共用 stage 1 2，将 stage 3 和后面的 Decode 部分作为各自分支结构；

语义分割的输出为 W*H*2，[2 分类]，Embedding 的输出为 W*H*Dim，Dim 为自定义的向量长度；

论文中两个分支权重相同；

Segmentation

语义分割目的是区分车道线和背景，其中作者主要考虑两点：

1. 在构建 label 时，为了处理遮挡问题，论文对被车辆遮挡的车道线和虚线进行了还原；

2. 由于类别不均衡，作者进行了加权

P_class 为每个类别出现的概率， C 为常数，是个超参数，（ENet论文中是1.02，使得权重的取值区间为[1,50]）

个人理解：首先，由于类别分布可能会相差很大，取 log 缩放了这个差距，加个常数 C 防止 log 取负数，然后再取倒是把出现多的权重变小，出现少的权重变大；

Embedding

像素 Embedding 是对像素进行矢量化，用于区分每个像素属于哪条车道线；

它的思想如下：类似于聚类，同一条车道线(根据 label 可知) 的像素要靠近矢量化的中心，不同车道线的像素的矢量化中心要远离，即类内距离尽可能小，类间距离尽可能大；

它的 loss 设计很巧妙，分为两部分

C 代表车道线的条数，由 label 可知；

Nc 代表每条车道线的像素点；

μc 代表每条车道线的像素矢量均值，注意是预测值的 mean，即网络输出预测矢量后，再计算均值，然后计算 loss；

δv 代表像素离 μc 的距离，大于该距离时，要进行 pull，即拉近到聚类中心；

　　// 试想一下普通的距离方法，每个样本分布在其聚类中心周围，并不是和聚类中心重合，

μca μcb 代表不同车道线的像素矢量均值，也是预测值的 mean；

δd 代表不同车道线聚类中心间的距离，小于该距离时，要进行 push，使得聚类中心远离；

||x|| 代表 L2 范数；

[x]₊ 代表 max(0, x)；

聚类

聚类只发生在预测部分；

即模型完成分割和矢量化后，对矢量进行聚类，区分不同车道线；

为了方便聚类，在 Embedding 时设定 δd > 6*δv；

聚类方法使用的是 mean shift，不再赘述；

H-Net

LaneNet 的输出是每条车道线的像素集合，我们还需要把这些像素拟合成一条车道线；

传统做法是将图片投影到鸟瞰图中，然后用二阶或者三阶多项式进行拟合，这种方案转换矩阵 H 只算一次，但不同地形如丘陵、山地的转换是略有不同的；

为了解决这个问题，论文训练了一个预测转换矩阵 H 的神经网络，输入是一张图片，输出是转换矩阵 H；

H 长这样

通过置 0 对转换矩阵进行约束，即水平线在转换下保持水平，即坐标 y 的变换不受 x 的影响；

y' = dy + e，与 x 无关；

网络结构

上述转换矩阵只有 6 个参数，故 H-Net 模型的输出是一个 6 维向量，网络包含 6 个卷积层和 1 一个全连接；

loss function

懒得写了，是个图片

思路如下： H-Net 输出 H 后，与真实像素相乘做转换，得到一堆转换后的点，然后用最小二乘法得到拟合系数 w，注意至此 H w 都是瞎猜的，是预测的，

然后我们在 y’ 处计算对应的 x’，也是瞎猜哦，最后用 H^-1 把 x’ 还原回去，得到 x*，至此都是瞎猜，然后求误差；

具体可以看参考资料 3

我这里有个疑问：用 x’ y' 算出了 w，然后做 wy' 竟然和 x' 完全不一样，有些费解，纠结啊

curve fitting

曲线拟合只发生在预测部分；

思考

laneNet 为什么没有类似于 skip connection 的操作？

我的理解是识别车道线的任务太过简单了

参考资料：

https://www.jianshu.com/p/c6d38d648509

https://www.cnblogs.com/xuanyuyt/p/11523192.html

https://github.com/stesha2016/lanenet-enet-hnet　　代码

查看全文

相关阅读:
C++（四十）— C++中一个class类对象占用多少内字节
 C++（三十九） — 主函数中增加调试信息
 C++（三十八） — 继承方式、访问控制、构造和析构、虚继承
 ambari部署Hadoop集群（1）
小波分析和多尺度几何分析
 正则化与矩阵范数
 设计模式之：创建型设计模式
 设计模式六大原则（详细）
UML类关系（依赖，关联，聚合，组合，泛化，实现）
SSD详解

原文地址：https://www.cnblogs.com/yanshw/p/12530272.html

introduction

LaneNet

网络结构

Segmentation

Embedding

聚类

H-Net

网络结构

loss function

curve fitting

思考