一、图像识别与定位
思路1:视作回归
4个数字,用L2 loss/欧氏距离损失(x,y,w,h)这四个数都是连续值
思路2:借助图像窗口
二、物体识别
0.图像识别与定位:
(1)Classification:C个类别
(2)Input:Image
(3)Output:类别标签
(4)Evaluation metric:准确率
1.Localization:
(1)Input:Image
(2)Output:物体边界框(x,y,w,h)
(3)Evaluation metric:交并准则IOU
2.Classification+Localization:识别主体+定 位(四元组完成)
3.边缘策略/选择性搜索=》R-CNN
4.R-CNN=>Fast R-CNN
5.Fast R-CNN=>Fast R-CNN
6.YOLO/SSD
7.ImageNet:(1)实际上有 识别+定位 2个任务
(1)思路1:看做回归问题
最后的卷积层后
全连接层后
(2)能否对主题有更细致的识别?
提 前规定好有K个组成部分
做成K个部分(关节)做回归预测=》收尾相接的线段
(3)思路2:图窗+识别与整合
类似刚才的classification+regression思路
选取不同的大小的框
让框出现在不同的位置上
判定得分
按照得分高低对“结果框”做抽取和合并
(4)实际应用的时候,会尝试各种大小的窗口,甚至在窗口上做一些回归的事情
(5)想办法克服一下过程中的“参数多”与“计算慢”
用多卷积核的卷积层替换全连接层
降低参数量
(6)测试/识别阶段的计算是可以复用的(小卷积)
加速计算
三、图像分割
1.语义分割
2.反卷积