论文解析:https://blog.csdn.net/tianguiyuyu/article/details/81347846
笔记:
Bounding_boxes + confidence ( 7*7 * 30 )
将YOLO用于PASCAL VOC数据集时:
论文使用的 S=7,即将一张图像分为7×7=49个栅格每一个栅格预测B=2个boxes(每个box有 x,y,w,h,confidence,5个预测值),同时C=20(PASCAL数据集中有20个类别)。
因此,最后的prediction是7×7×30 { 即S * S * ( B * 5 + C) }的Tensor