zoukankan html css js c++ java

机器学习之主成分分析（PCA）

import numpy as np

#（1）零均值化
def zeroMean(dataMat):
    meanVal=np.mean(dataMat,axis=0)
    newData =dataMat -meanVal
    return newData, meanVal
#3、选择主成分个数
def percentage2n(eigVals,percentage):
    sortArray=np.sort(eigVals)   #升序
    sortArray=sortArray[-1::-1]  #逆转，即降序
    arraySum=sum(sortArray)
    tmpSum=0
    num=0
    for i in sortArray:
        tmpSum+=i
        num+=1
        if tmpSum>=arraySum*percentage:
            return num
#pca算法
def pca(dataMat,percentage=0.99):
    # （1）零均值化
    newData, meanVal = zeroMean(dataMat)
    # 求协方差矩阵
    covMat = np.cov(newData, rowvar=0)
    # （3）求特征值、特征矩阵
    eigVals, eigVects = np.linalg.eig(np.mat(covMat))
    n =percentage2n(eigVals,percentage)
    # eigVals 特征值和eigVects特征向量
    eigValIndice = np.argsort(eigVals)
    #所以eigValIndice[-1:-(n+1):-1]就取出这个n个特征值对应的下标。【python里面，list[a:b:c]代表从下标a开始到b，步长为c。】
    n_eigValIndice = eigValIndice[-1:-(n + 1):-1]  # 最大的n个特征值的下标
    n_eigVect = eigVects[:, n_eigValIndice]  # 最大的n个特征值对应的特征向量
    lowDDataMat = newData * n_eigVect  # 低维特征空间的数据
    reconMat = (lowDDataMat * n_eigVect.T) + meanVal  # 重构数据
    return lowDDataMat, reconMat
def main():
    data = [[10.2352,11.322],
            [10.1223,11.811],
            [9.1902,8.9049],
            [9.3064,9.8474],
            [8.3301,8.3404],
            [10.1528,10.1235],
            [10.4085,10.822],
            [9.0036,10.0392],
            [9.5349,10.097],
            [9.4982,10.8254]]
    lowDDataMat, reconMat = pca(data,0.9)
    print(lowDDataMat)
if __name__=="__main__":
    main()

查看全文

相关阅读:
使用.NET发送EMail小程序示例
 Log4Net使用手册
 深入继承之抽象类和接口综合分析及完整案列解说(二)
Prototype 1.4.0源码详细解释脚本代码全文注释
 深入继承之抽象类和接口综合分析及完整案列解说（一）
关于如何理解 not exists 的好比喻 not exists = not in;exists= in
一些直接访问的外国 SCI 期刊地址
 ∩∈∪≠ 制作PPT 时数学符号
 Can I make a userdefined function/procedure to return a result set
IN适合于外表大而内表小的情况；EXISTS适合于外表小而内表大的情况

原文地址：https://www.cnblogs.com/gylhaut/p/9151320.html