02图像分类综述

zoukankan html css js c++ java

02图像分类综述

1.图片分类的问题定义

图片分类定义：给定图片做输入，输出图片中所包含的物体类别；

图1

图像分类分为两种：single label （单分类）和multi label（多分类）；

左上图片：single label and single instance（个体或实例）；

左下：single label and multi instance；

右上：multi label and multi instance；

右下：multi label and multi/single instance

一般的图像分类以单分类为主。

图2

2. 图像分类的性能评判准则

怎么评判图片分类的准确度呢？

Top1 Accuraccy：给定一张输入照片image，给出一种预测prediction，判断与实际的label是否一致，如果一致，就是分类预测正确；否则的话，分类预测错误；然后，统计一下预测正确和预测错误的比例，就可以得到Top1 Accuraccy；

Top5 Accuraccy：给定一张输入照片image，给出5种预测prediction，只要其中有一个prediction，与实际的label一样，就仍为分类预测正确；否则的话，仍为分类预测错误。最后，统计一下预测正确和预测错误的比例，就可以得到Top1 Accuraccy；

问题: 为什么针对单个single label，给出5种预测prediction？

因为ImageNet数据集有1000个类别，一般训练集中，一张图片只给定一个True Label；但是，从人的角度观测这张图片进行预测分类的话，一般可以有多个Label，可能一张图像分类存在歧义（比如上图2，右下图 multi label and multi/single instance ）。

图3

3. 经典数据集

MNIST数据集，single label的数据集，训练集60000张，测试及10000张，类别数量10个（数字0-9），每张图像是28*28*1大小的手写体灰度图；

Fashion-MNIST: 分类效果好，不清楚是算法有效(网络训练效果好)，还是MNIST这个问题很简单呢？图像大小仍是28*28*1的灰度图；

CIFAR10/CIFAR100：彩色图 32*32*3，类别之间严格无交叉；

ImageNet数据集相对上面，数量相对较大，Million级别；李飞飞教授提供的，深度学习所需训练集的基础。

4. 经典算法

2012年，Alxnet的出现，标志着深度学习的元年。

网络轻量化：深度学习面临在手机端/移动端等，计算能力不强场景下应用，较深的网络难以在这种算力约束的情况下应用，故而网络轻量化是一个很热的话题，如MobileNet系列、ShuffleNet系列；

VGGNet：是比较经典的分类网络；

Inception系列网络：是从网络的宽度角度优化；

ResNet/DenseNet:是从网络的深度角度优化；

SENet是另辟蹊径，从其他的角度考虑优化。

注：每一篇网络的论文都推荐去读一下，它们是后续深度学习训练的基石。

5. 性能对比

ImageNet 10M（千万级别）非常大的数据集；

ILSVRC: 是基于ImageNet数据集的提出的一个挑战赛。ImageNet Large Scale Vision Recognition Challenge，大致包含几个分类：图像分类（image classification 1000个类别，128万数据集照片）、物体检测（Object location）、物体定位（Object detection）和视频物体检测（video object detection）等。

AlexNet：2012年的AlexNet在ImageNet上，图像分类提高了>10%的百分点；

ResNet： 2015年的ResNet，图像分类的准确度已经超过了人类的分类水平；

图5

6. 图像分类与定位

图像分类：输入image，给定5个预测的分类结果（class prediction），其中有一个prediction与对应的label一致，就仍为分类正确；

图像分类与定位：输入image，给定5对prediction，每对包含（class， box）；class 是整个图片的类别；第一，分类正确；第二，该分类正确的类别对应的box与真实标签box的IOU大于0.5；才认为图像分类与定位正确。

物体检测：给定image，给出N对prediction，每对包含（class， box）；该class是值框内的物体类别；物体检测是：输出图像中每个物体对应的类别与box，并且每个物体分类正确，且box与真实标签box的IOU大于某一阈值。才认为物件检测正确。

图 6

7. 图片分类的粒度

1. 粗粒度图片分类

类比跨种族，分类类别属于差别较大的种族，比如，飞机与鸟、飞机与车等，特点：类间差异大，类内差异小；常见的如：MNIST/ImageNet/CIFAR10/CIFAR100等，都属于粗粒度图片分类。

2. 细粒度图片分类

大的类别之间，差异很小的，比如：啄木鸟与鹦鹉，类间差异小，类内差异大（比如：每个类之间有不同的姿态）；

3. 实例级图片分类

同一种族，不同个体，要把他们分开，比如：人脸识别，本质上人脸识别仍然属于图片分类。

查看全文

相关阅读:
关于日期
 修改video标签自带按钮的默认样式
 vue相关
 手机
 国内优秀npm镜像
 一些技能整理
 小程序
 $('.mydiv>ul')和$('.mydiv ul')的不同
 Python 字符编码
 Python 正则表达式补充

原文地址：https://www.cnblogs.com/zhaopengpeng/p/15599886.html