本文主要是提出了一种级联结构,采用三个网络(WNet,TNet,ENet),每个网络的输入大小分别为2217,217,113。分别用于脑胶质瘤的不同部分进行分割,第一个网络(WNet)在整个图像上进行分割,分割出整个肿瘤,然后在整个肿瘤部分选取一个bounding box,作为TNet的输入,分割出来tumor core,在tumor上选取box,然后作为Enet的输入,最后分割出来enhanceing tumor core。需要注意的是,在训练阶段bounding box是由label生成,在预测阶段,bounding box是由前一阶段的分割结果构成。整体结构如下所示
WNet、TNet、ENet结构
网络部分很好的利用了高层语义信息与低层语义信息,将高层与低层信息通过upsampling融合在一起,提高了分割精度
在训练阶段,若只使用一个方向(轴向,矢状图,冠状图),则精度低于将所有方向训练时的精度
各向异性卷积神经网络(参考https://zhuanlan.zhihu.com/p/49995173)
作者说,小的感受野可以提取局部特征,大的感受野可以提取全局特征,像FCN,U-Net,他们的感受野都比较大,可以直接抓取整张图片的特征,作者想用一个大的3D感受野去提取更全局的3D特征,但是无奈大的3Dpatch更耗内存,所以在分别率和内存之间取了一个折中——anisotropic networks(各向异性网络)
通俗的解释就是,x,y,z分别是长,宽,高。3个网络在x,y平面上取的感受野分别是,217×217,217×217,113×113,可以看出,在xy平面内的感受野还是相当大的,在训练和测试时都大于相对应的输入图片大小。而在z轴方向,3个网络的感受野都是9,在图2中也可以看出来,蓝色的卷积核都是3×3×1,即在z轴方向上是比较小的。网络的卷积用了10个带有各向异性卷积的残差连接块,还有一些扩张卷积,多尺度预测一类的。
1.各向异性和扩张的卷积
为了处理各向异性接受域,我们将大小为3×3×3的三维核分解为大小为3×3×1的片内(intra-slice)核和大小为1×1×3的片间(inter-slice)核。这些内核的卷积层都有Co输出通道,每个通道后面都有批规一化层和激活层,如图2中蓝色和绿色块所示。激活层采用(PReLU),其性能优于传统ReLU。WNet和TNet使用20个层内卷积层和4个层间卷积层,两个2D下采样层。ENet使用与WNet相同的卷积层,但考虑到其较小的输入大小,只使用一个下采样层。为了避免图像分辨率的大幅降低和分割细节的丢失,我们只使用了多达两层的下采样。在向下采样层之后,我们对片内核使用扩张卷积来扩大片内的接受域。膨胀参数设置为1 ~ 3,如图2所示。