主成分分析(PCA)算法介绍及matlab实现案例

zoukankan html css js c++ java

主成分分析(PCA)算法介绍及matlab实现案例
主成分分析经常被用做模型分类时特征的降维，本篇首先介绍PCA的步骤，并根据步骤撰写对应的MATLAB代码，最后指明使用PCA的步骤。

我们在做分类时，希望提取的特征能够最大化将数据分开，如果数据很紧密，模型就比较难将其分开，如果数据比较离散，那么就比较容易分开，换句话说，数据越离散，越容易分开。

那怎么让数据离散呢？离散又用什么指标衡量呢？

统计学的知识告诉我们，数据越离散，方差越大。

因此，PCA的问题就变为：寻找一个坐标轴，使得数据在该坐标轴上面离散度最高。也就是寻找一个基使得所有数据在这个基上面的投影值的方差最大。

那具体怎么做呢？科学家们已经帮我们做好了，如下步骤：

设有m个样本，每个样本有n个特征，组成m行n列的矩阵

1）将每一列特征进行均值化处理，特征归一化，也称为数据中心平移到坐标原点

2）求取协方差矩阵

3）求取协方差矩阵的特征值和特征向量

4）将特征向量按对应特征值大小从上到下按行排列成矩阵，取前K列组成系数矩阵

matlab代码
function [coffMatrix,lowData,eigValSort,explained,meanValue] = myPCA(data) %data为row行col列矩阵，row为样本数量，col为特征列，每一列代表一个特征 [row , col] = size(data); % 求出每一列的均值 meanValue = mean(data); % 将每一列进行均值化处理，特征归一化,数据中心平移到坐标原点 normData = data - repmat(meanValue,[row,1]); %求取协方差矩阵 covMat = cov(normData); %求取特征值和特征向量 [eigVect,eigVal] = eig(covMat); % 将特征向量按对应特征值大小从上到下按行排列成矩阵 [sortMat, sortIX] = sort(eigVal,'descend'); [B,IX] = sort(sortMat(1,:),'descend'); coffMatrix = eigVect(:,IX); % 排序后的特征向量就是新的坐标系 lowData = normData * coffMatrix; % 分量得分 explained = 100*B/sum(B); %特征值 eigValSort = B; %% % [U,S,V] = svd(data); end
　　

我们在实际应用PCA的时候需要注意保留以下几个值。

1、每个特征的均值meanValue，用于验证集和测试集的归一化

2、系数矩阵coffMatrix，用于求取转换后的训练数据，和转换后的验证数据，测试数据

3、各分量的得分scores，用以确定最终的所需要的维度。

下面借鉴matlab帮助中心的例子实现撰写以下代码：
clc clear creditrating = readtable('CreditRating_Historical.dat'); creditrating(1:5,:); X = table2array(creditrating(:,2:7)); Y = creditrating.Rating; XTest = X(1:100,:); XTrain = X(101:end,:); YTest = Y(1:100); YTrain = Y(101:end); [coeffMatrix,scoreTrain,eigval,score,meanValue] = myPCA(XTrain); sum_score = 0; idx = 0; while sum_score < 95 idx = idx + 1; sum_score = sum_score + score(idx); end idx scoreTrain95 = scoreTrain(:,1:idx); mdl = fitctree(scoreTrain95,YTrain); %关键步骤：1、测试集减去均值，均值是训练集各个特征值的均值 for i=1:size(XTest,1) XTest(i,:) = XTest(i,:)-meanValue; end %关键步骤：2、均值化之后的值乘以训练集的系数矩阵（新基），转化为该基下来对应的值 scoreTest95 = XTest*coeffMatrix(:,1:idx); % 新基下面的值作为预测数据 YTest_predicted = predict(mdl,scoreTest95);
matlab中也有自带的pca函数

[coeff, score, latent, tsquared, explained, mu] = pca(x,varargin)；

详细的参数说明可以通过在命令行输入 doc pca查看

也可以通过matlab的帮助中心查看：https://ww2.mathworks.cn/help/stats/pca.html?requestedDomain=cn

帮助中心中有丰富的例子可以帮助理解。

　
查看全文

相关阅读:
关于aar 上传到jcenter的最快方式
 快速开发的几个框架
 git 删除本地提交记录
 git 缓存溢出
 vs 启动网站设置为127.0.0.1 设置为本机IP地址
 uni-app 设置登录状态保存
 c# 快速实现php的ksort函数
 宝塔面板出现“require(): open_basedir restriction in effect. ”的解决方法
 PHP访问数据的时候返回的json数据前面会带小红点
 C# Generic(转载)

原文地址：https://www.cnblogs.com/xhslovecx/p/12849449.html

最新文章
使用axios请求时，发送formData请求
 ajax验证输入格式是否正确
 ajax4
ajax3
ajxssan
ajax
php
mysql
PHP 布尔类型
 总结（5.19）