zoukankan      html  css  js  c++  java
  • 主成分分析(PCA)算法介绍及matlab实现案例

    主成分分析经常被用做模型分类时特征的降维,本篇首先介绍PCA的步骤,并根据步骤撰写对应的MATLAB代码,最后指明使用PCA的步骤。

    我们在做分类时,希望提取的特征能够最大化将数据分开,如果数据很紧密,模型就比较难将其分开,如果数据比较离散,那么就比较容易分开,换句话说,数据越离散,越容易分开。

    那怎么让数据离散呢?离散又用什么指标衡量呢?

    统计学的知识告诉我们,数据越离散,方差越大。

    因此,PCA的问题就变为:寻找一个坐标轴,使得数据在该坐标轴上面离散度最高。也就是寻找一个基使得所有数据在这个基上面的投影值的方差最大。

    那具体怎么做呢?科学家们已经帮我们做好了,如下步骤:

    设有m个样本,每个样本有n个特征,组成m行n列的矩阵

    1)将每一列特征进行均值化处理,特征归一化,也称为数据中心平移到坐标原点

     2)求取协方差矩阵

    3)求取协方差矩阵的特征值和特征向量

    4)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前K列组成系数矩阵

    matlab代码

    function [coffMatrix,lowData,eigValSort,explained,meanValue] = myPCA(data)
    %data为row行col列矩阵,row为样本数量,col为特征列,每一列代表一个特征
    [row , col] = size(data);
    % 求出每一列的均值
    meanValue = mean(data);
    % 将每一列进行均值化处理,特征归一化,数据中心平移到坐标原点
    normData = data - repmat(meanValue,[row,1]);
    %求取协方差矩阵
    covMat = cov(normData);
    %求取特征值和特征向量
    [eigVect,eigVal] = eig(covMat);
    % 将特征向量按对应特征值大小从上到下按行排列成矩阵
    [sortMat, sortIX] = sort(eigVal,'descend');
    [B,IX] = sort(sortMat(1,:),'descend');
    coffMatrix = eigVect(:,IX);
    % 排序后的特征向量就是新的坐标系
    lowData = normData * coffMatrix;
    % 分量得分
    explained = 100*B/sum(B);
    %特征值
    eigValSort = B;
    %%
    % [U,S,V] = svd(data);
    end
    

      

    我们在实际应用PCA的时候需要注意保留以下几个值。

    1、每个特征的均值meanValue,用于验证集和测试集的归一化

    2、系数矩阵coffMatrix,用于求取转换后的训练数据,和转换后的验证数据,测试数据

    3、各分量的得分scores,用以确定最终的所需要的维度。

    下面借鉴matlab帮助中心的例子实现撰写以下代码:

    clc
    clear
    creditrating = readtable('CreditRating_Historical.dat');
    creditrating(1:5,:);
    X = table2array(creditrating(:,2:7));
    Y = creditrating.Rating;
    XTest = X(1:100,:);
    XTrain = X(101:end,:);
    YTest = Y(1:100);
    YTrain = Y(101:end);
    
    [coeffMatrix,scoreTrain,eigval,score,meanValue] = myPCA(XTrain);
    
    sum_score = 0;
    idx = 0;
    while sum_score < 95
        idx = idx + 1;
        sum_score = sum_score + score(idx);
    end
    idx
    scoreTrain95 = scoreTrain(:,1:idx);
    mdl = fitctree(scoreTrain95,YTrain);
    %关键步骤:1、测试集减去均值,均值是训练集各个特征值的均值
    for i=1:size(XTest,1)
        XTest(i,:) = XTest(i,:)-meanValue;
    end
    %关键步骤:2、均值化之后的值乘以训练集的系数矩阵(新基),转化为该基下来对应的值
    scoreTest95 = XTest*coeffMatrix(:,1:idx);
    % 新基下面的值作为预测数据
    YTest_predicted = predict(mdl,scoreTest95);

    matlab中也有自带的pca函数

    [coeff, score, latent, tsquared, explained, mu] = pca(x,varargin);

    详细的参数说明可以通过在命令行输入 doc pca查看

    也可以通过matlab的帮助中心查看:https://ww2.mathworks.cn/help/stats/pca.html?requestedDomain=cn

    帮助中心中有丰富的例子可以帮助理解。

     

  • 相关阅读:
    alpha 冲刺 —— 十分之一
    福大软工 · 第七次作业
    福大软工 · 第八次作业(课堂实战)- 项目UML设计(团队)
    2018软工实践——团队答辩
    福大软工1816 · 第五次作业
    福大软工1816 · 第四次作业
    软工实践第四次作业--结队的第一次合作
    软工实践第二次作业--思索
    华中农业大学第五届程序设计大赛网络同步赛解题报告2(转)
    华中农业大学第五届程序设计大赛网络同步赛解题报告(转)
  • 原文地址:https://www.cnblogs.com/xhslovecx/p/12849449.html
Copyright © 2011-2022 走看看