1.Resize成448*448,图片分割得到7*7网格(cell),某个物体的中心落在这个网格中此网格就负责预测这个物体
2.最后一层是一个7*7*30的cube,每个 1*1*30的维度对应原图7*7个cell中的一个,1*1*30中含有类别预测和bbox坐标预测,前10个是两个不同bouding box的坐标(x,y,w,h)和confidence,最后20个是每个类别的概率。confidence是 ,pr代表这个框含有物体的概率,iou代表这个框和gt框的iou值。由于多了confidence这个东西,所以预测的类别其实只是一个条件概率值,就是在置信度下的类别概率,需要两者相乘才得到最终的scores(YOLO没有背景这个类别,confidence其实起到了背景框的筛选作用)
不只两个哦,只不过YOLO中设置了两个,其实我可以预测更多啊,只不过每个cell的类别概率是共享的,但是confidence与coordinate是不一样的,每个cell可以预测很多边界框,这可能对密集的小物体有效吧,但是YOLO有个致命缺点,每个cell预测的边界框w和h都是相对于图片大小的,对于不同比例的物体训练难度大。所以,后面的模型都采用了先验框,prior boxes, anchors.
yolov1一个cell只能检测一个物体,虽然一个cell有多个bounding box。之后YOLO V2和V3引入anchors后一个cell可以检测多个物体。
3.用fc先得到1*1470的vector,然后再转换成7*7*30的cube
4.
5.
https://zhuanlan.zhihu.com/p/24916786
https://zhuanlan.zhihu.com/p/27515705
v2:https://zhuanlan.zhihu.com/p/25167153