1:文字回答:用自己的语言描述 split-transform-merge是怎样一个过程.
先通过1x1卷积实现低维变换,将特征图分解为cardinality个分支,然后对每个分支进行变换(用网络层对数据进行操作)。最后对32个分支得到的变换结果——特征图进行聚合(求和)
2:文字回答:ResNeXt-50_32x4d 中的50, 32和4分别表示什么意思?
50:网络一共50层,C=32:分组卷积的分组数,4d:每组的通道数是4(卷积核数)
3:文字回答:分组卷积能减少多少参数?(输入通道数、输出通道数均一致的情况下)
5x106
4:文字回答:读完该论文,对你的启发点有哪些?
1)视觉任务研究方向从传统的特征工程转向网络工程
2)相同架构的block进行堆叠,可以减少过度适应的风险,侧面反映出Inception系列模型泛化性能可能较差
3)ResNeXt并不是模型集成的,各个branch是共同训练的,只有当模型分开训练时才称为模型集成
4)VGG与ResNet的两个优秀的网络设计准则:处理相同尺寸的特征图时,采用同样大小、数量的卷积核
当特征图分辨率长宽降低2倍时,特征图通道数(卷积核数量)翻倍。
5)相同的结构便于调试,不至于过适应具体任务
6)参数少训练速度不一定快,要看硬件对operations的支持情况
7)ImageNet-1K数据集上模型精度饱和,并不是模型能力问题,而是数据太少,在ImageNet-5k上进行实验resnext方差大,resnet方差小
5:代码实现(选做题):在cifar-10上训练一个resnext29,将训练曲线,混淆矩阵图等信息贴出来分享