机器学习研究项目--以机器视觉工程师的视角(MLP篇)
一、机器学习的基本概念和区分;
机器学习的概念已经出现很长时间了,它本身也形成复杂的学科分类。这里基于相关资料学习,进行简单的定义和区分。由于经验有限,出现错误,欢迎提出修改意见。
定义:机器学习(Machine Learning)是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能的学科。
对于我们做图像处理的具体项目,主要就是利用机器学习的方法,通过对大量数据的统计和挖掘,使得机器能够自动识别、分割、处理图像中展现的物体。
区分:
1)bp神经网络,诞生80年代末期,第一次实现让一个人工神经网络模型从大量训练样本中学习统计规律,从而对未知事件做预测。bp最原始是3层的,多层的实现叫做MLP。
2)svm是一种基于统计学习理论的模式识别方法,它在结构风险最小化的基础上,为两种不同类别的样本数据找到一个最优分类面;
3)boost指的是一种将弱学习算法提升为强学习算法的一类算法;
4)dl和在图像处理用途广泛的CNNs 。dl的实质,是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。
CNNs 是第一个真正成功训练多层网络结构的学习算法,在图像处理领域广泛使用。
相关概念:
机器模仿的是人类,所以无论哪种机器学习算法,统计处理的都是图片的特征。而这里的特征主要指的是不同物体的边缘线。大脑不断抽象这些特征,并且最终认识物体。而机器模仿这一过程。
二、作为机器视觉工程师需要掌握的工具和技术;
源自数学和生物学的机器学习理论,借助计算机的强大运算能力,不断改造我们的工程实践。作为一名专注于图像处理和机器视觉的程序员,在初步理解机器学习相关概念的基础上,我更关注1)现在已经存在了哪些工具;2)如何利用这些工具来解决现实问题。
这里主要研究实现MLP和CNNs。设计到的工具为Opencv和专门用来解决CNNs问题的代码,数据集是Mnist。
三、实际项目和统计分析;
1)简介
Mnist是一个专门用来进行神经网络训练的数据集,其中主要包含的内容是收集的手写体阿拉伯数字。原始网站上面提供4个文件,分别对应的是训练图像、训练图像对应的标签;测试图像、测试图像对应的标签。由于Mnist的数据并不是采用图片格式保持的,所以我这里采用的是处理好的Mnist的数据,分为Train和Test两个文件夹,其中的数据都已经按照对应的名称命名好了。
这里实现两项内容,即采用MLP的方法对Mnist的训练数据进行交叉检验和对其Test数据进程测试。
2)核心内容
1.取特征的方法,由于MlP是需要自己设定特征的,这里借助<<master opencv >>书中的取特征方法,主要思想就是横向纵向的投影。
// 获取垂直和水平方向直方图
Mat ProjectedHistogram(Mat img, int t)
{
int sz=(t)?img.rows:img.cols;
Mat mhist=Mat::zeros(1,sz,CV_32F);
for(int j=0; j<sz; j++){
Mat data=(t)?img.row(j):img.col(j);
mhist.at<float>(j)=countNonZero(data);
}
//Normalize histogram
double min, max;
minMaxLoc(mhist, &min, &max);
if(max>0)
mhist.convertTo(mhist,-1 , 1.0f/max, 0);
return mhist;
}
//获得特征
Mat features(Mat in, int sizeData)
{
//Histogram features
Mat vhist=ProjectedHistogram(in,VERTICAL);
Mat hhist=ProjectedHistogram(in,HORIZONTAL);
//Low data feature
Mat lowData;
resize(in, lowData, Size(sizeData, sizeData) );
//Last 10 is the number of moments components
int numCols=vhist.cols+hhist.cols+lowData.cols*lowData.cols;
Mat out=Mat::zeros(1,numCols,CV_32F);
int j=0;
for(int i=0; i<vhist.cols; i++)
{
out.at<float>(j)=vhist.at<float>(i);
j++;
}
for(int i=0; i<hhist.cols; i++)
{
out.at<float>(j)=hhist.at<float>(i);
j++;
}
for(int x=0; x<lowData.cols; x++)
{
for(int y=0; y<lowData.rows; y++){
out.at<float>(j)=(float)lowData.at<unsigned char>(x,y);
j++;
}
}
//if(DEBUG)
// cout << out << " =========================================== ";
return out;
}
2.Opencv中提供的MLP相关函数,核心为CNN的创建。这里的layers不是神经网络层,而是Opencv对MLP创建定义的一种参数输入方式。里面有两点是可以修改的,一个是_neurons,这个对应的是神经网络层数;一个是CvANN_MLP::SIGMOID_SYM对应的是ann的训练方法.
Mat layers(1, 3, CV_32SC1);
layers.at<int>(0) = TrainingData.cols;
layers.at<int>(1) = _neurons;
layers.at<int>(2) = numCharacter;
ann.create(layers, CvANN_MLP::SIGMOID_SYM, 1, 1);
layers.at<int>(0) = TrainingData.cols;
layers.at<int>(1) = _neurons;
layers.at<int>(2) = numCharacter;
ann.create(layers, CvANN_MLP::SIGMOID_SYM, 1, 1);
//CvANN_MLP::IDENTITY, CvANN_MLP::SIGMOID_SYM, and CvANN_MLP::GAUSSIAN.
训练
ann.train( TrainingData, trainClasses, weights );
预测
ann.predict(f, output);
3)具体内容请参考原始代码,这里说一下代码结构
主要是5个文件。其中GOCvHelper实现的是文件输入输出查找等相关函数;GOMlpHelper实现的和MLP相关的函数;而maintest是主要过程
//主要测试文件
#include "stdafx.h"
#include "GOCvhelper.h"
#include "GOMlpHelper.h"
//jsxyhelu.cnblogs.com 2015年3月
//基于opencv和mnist的mlp测试
void main()
{
int p[4]={5,10,15,20};
int n[8]={20,40,60,80,100,120,140,160};
for (int i=0;i<4;i++)
{
for (int j=0;j<8;j++)
{
char *txt = new char[50];
sprintf(txt,"交叉训练,特征维度%d,神网层数%d",p[i],n[j]);
AppendText("output.txt",txt);
//step 1
annPreper();
//step 2
annTrain(p[i],n[j],"ann_data.xml","ann.xml");
//step 3
annKfoldTest("ann.xml",p[i]);
}
}
cout<<"交叉训练结束!吼吼!"<<endl;
getchar();
return;
}
4)结果。这里展现的是对于不同参数下面,Mnist数据交叉检验的结果(取平均准确率和最低准确率)。这里的不同参数,指的是特征的维度和神经网络的层数。通过结果分析,在(特征维度5,神网层数80)的情况下,训练的结果最好,那么以后再进行具体的预测的时候,就可以取这个参数。
交叉训练,特征维度5,神网层数20
平均正确率0.924876,最低正确率0.697436
交叉训练,特征维度5,神网层数40
平均正确率0.929420,最低正确率0.706840
交叉训练,特征维度5,神网层数60
平均正确率0.910902,最低正确率0.684524
交叉训练,特征维度5,神网层数80
平均正确率0.946602,最低正确率0.724638
交叉训练,特征维度5,神网层数100
平均正确率0.863204,最低正确率0.000000
交叉训练,特征维度5,神网层数120
平均正确率0.630426,最低正确率0.000000
交叉训练,特征维度5,神网层数140
平均正确率0.670202,最低正确率0.000000
交叉训练,特征维度5,神网层数160
平均正确率0.579037,最低正确率0.000000
交叉训练,特征维度10,神网层数20
平均正确率0.905349,最低正确率0.718750
交叉训练,特征维度10,神网层数40
平均正确率0.759788,最低正确率0.541284
交叉训练,特征维度10,神网层数60
平均正确率0.940838,最低正确率0.620438
交叉训练,特征维度10,神网层数80
平均正确率0.898533,最低正确率0.627737
交叉训练,特征维度10,神网层数100
平均正确率0.723310,最低正确率0.000000
交叉训练,特征维度10,神网层数120
平均正确率0.668532,最低正确率0.000000
交叉训练,特征维度10,神网层数140
平均正确率0.663412,最低正确率0.000000
交叉训练,特征维度10,神网层数160
平均正确率0.713898,最低正确率0.000000
交叉训练,特征维度15,神网层数20
平均正确率0.668120,最低正确率0.043796
交叉训练,特征维度15,神网层数40
平均正确率0.821110,最低正确率0.587302
交叉训练,特征维度15,神网层数60
平均正确率0.717837,最低正确率0.000000
交叉训练,特征维度15,神网层数80
平均正确率0.740954,最低正确率0.509434
交叉训练,特征维度15,神网层数100
平均正确率0.691856,最低正确率0.000000
交叉训练,特征维度15,神网层数120
平均正确率0.653666,最低正确率0.000000
交叉训练,特征维度15,神网层数140
平均正确率0.642795,最低正确率0.000000
交叉训练,特征维度15,神网层数160
平均正确率0.676031,最低正确率0.000000
交叉训练,特征维度20,神网层数20
平均正确率0.651077,最低正确率0.029762
交叉训练,特征维度20,神网层数40
平均正确率0.731983,最低正确率0.000000
交叉训练,特征维度20,神网层数60
平均正确率0.704698,最低正确率0.000000
交叉训练,特征维度20,神网层数80
平均正确率0.747636,最低正确率0.000000
交叉训练,特征维度20,神网层数100
平均正确率0.790314,最低正确率0.000000
交叉训练,特征维度20,神网层数120
平均正确率0.726250,最低正确率0.009434
交叉训练,特征维度20,神网层数140
平均正确率0.679839,最低正确率0.000000
交叉训练,特征维度20,神网层数160
平均正确率0.650891,最低正确率0.000000
平均正确率0.924876,最低正确率0.697436
交叉训练,特征维度5,神网层数40
平均正确率0.929420,最低正确率0.706840
交叉训练,特征维度5,神网层数60
平均正确率0.910902,最低正确率0.684524
交叉训练,特征维度5,神网层数80
平均正确率0.946602,最低正确率0.724638
交叉训练,特征维度5,神网层数100
平均正确率0.863204,最低正确率0.000000
交叉训练,特征维度5,神网层数120
平均正确率0.630426,最低正确率0.000000
交叉训练,特征维度5,神网层数140
平均正确率0.670202,最低正确率0.000000
交叉训练,特征维度5,神网层数160
平均正确率0.579037,最低正确率0.000000
交叉训练,特征维度10,神网层数20
平均正确率0.905349,最低正确率0.718750
交叉训练,特征维度10,神网层数40
平均正确率0.759788,最低正确率0.541284
交叉训练,特征维度10,神网层数60
平均正确率0.940838,最低正确率0.620438
交叉训练,特征维度10,神网层数80
平均正确率0.898533,最低正确率0.627737
交叉训练,特征维度10,神网层数100
平均正确率0.723310,最低正确率0.000000
交叉训练,特征维度10,神网层数120
平均正确率0.668532,最低正确率0.000000
交叉训练,特征维度10,神网层数140
平均正确率0.663412,最低正确率0.000000
交叉训练,特征维度10,神网层数160
平均正确率0.713898,最低正确率0.000000
交叉训练,特征维度15,神网层数20
平均正确率0.668120,最低正确率0.043796
交叉训练,特征维度15,神网层数40
平均正确率0.821110,最低正确率0.587302
交叉训练,特征维度15,神网层数60
平均正确率0.717837,最低正确率0.000000
交叉训练,特征维度15,神网层数80
平均正确率0.740954,最低正确率0.509434
交叉训练,特征维度15,神网层数100
平均正确率0.691856,最低正确率0.000000
交叉训练,特征维度15,神网层数120
平均正确率0.653666,最低正确率0.000000
交叉训练,特征维度15,神网层数140
平均正确率0.642795,最低正确率0.000000
交叉训练,特征维度15,神网层数160
平均正确率0.676031,最低正确率0.000000
交叉训练,特征维度20,神网层数20
平均正确率0.651077,最低正确率0.029762
交叉训练,特征维度20,神网层数40
平均正确率0.731983,最低正确率0.000000
交叉训练,特征维度20,神网层数60
平均正确率0.704698,最低正确率0.000000
交叉训练,特征维度20,神网层数80
平均正确率0.747636,最低正确率0.000000
交叉训练,特征维度20,神网层数100
平均正确率0.790314,最低正确率0.000000
交叉训练,特征维度20,神网层数120
平均正确率0.726250,最低正确率0.009434
交叉训练,特征维度20,神网层数140
平均正确率0.679839,最低正确率0.000000
交叉训练,特征维度20,神网层数160
平均正确率0.650891,最低正确率0.000000
四、小结;
这里提供的是一种基于Opencv这种工具和Mnist这个数据集的MLP的具体实现和测试.这种框架应该说稍加修改就能够应用于不同的数据集中去。在整个训练的过程中,感到比较困难的是对于数据的预处理。由于MLP要求所有的训练和测试数据其维度都是一样的,而且Opencv在实现的过程中,采用了将所有的数据压缩到一个Mat中的方法,所以有一些麻烦。
这里值得注意的一点是,MLP中图像的特征是需要手动生成的。也就是将将图像降维的方法是需要手动设定的。这个方法的选择很大程度上决定了最终的结果是否理想。
而对于CNNs来说,它以更为复杂的实现方法,达到了这样一种效果:那就是不需要手动地设定特征选取的方法,计算机通过自己的训练来自己选择特征。这是非常令人激动的地方,我将在下一篇博文中展现其实现,感性关注。
代码:http://pan.baidu.com/s/1hqvNmg0
mnist文件:http://pan.baidu.com/s/1kTuviAz http://pan.baidu.com/s/1qWoLuPI