zoukankan      html  css  js  c++  java
  • pca(主成分分析)

    pca主成分分析:

    可以把高纬度数据在损失最小的情况下转化为低维度数据。显然,PCA可以对数据进行压缩,可以在可控的失真范围内提高运算速度。

    PCA主要参数:

    n_components:这个参数可以帮我们指定希望PCA降维后的特征维度数目
    whiten :判断是否进行白化,就是对降维后的数据的每个特征进行归一化
    svd_solver:即指定奇异值分解SVD的方法

    常用方法:

    输出方差比:每个主成分占数据的百分比

    随着你添加越来越多的主成分作为训练分类器的特征,你认为它的性能会更高还是更低?

     更好。因为更多的特征可以使我们对数据更加了解,从而提高分类器的性能。

    PCA注意:

    1. 压缩数据,主成份一般在90%,95%和99%几档,根据实际需要选取
    2. 加速模型建模,缩短时间(PCA处理后,建模,需要保留转换向量P,并用P处理预测数据)
    3. 可视化,如果前两个或三个数据可以表示90%以上的成分,那么可以进行可视化
    4. PCA处理数据之前需要确保每个列的均值为0(mean normalization),同时需要确保量纲相同(scaling),否则数值较大的几个变量会占据主要成分。
    5. 不要将PCA作为解决过拟合的方法,虽然使用PCA后,确实可以减少过拟合,但是原因可能是feature减少了。采用regulations缓解过拟合。
    6. 设计ML系统时,不要一开始就期望使用PCA,提高模型性能。只有当所有非PCA方法无法达到效果时,在使用PCA。PCA处理数据时没有考虑到y,会损失部分有价值信息
    7. pca的主成分分析出来后,应用于训练集和测试集。而不是多次进行主成分分析。
  • 相关阅读:
    [OpenJudge] 反正切函数的应用 (枚举)(数学)
    [OpenJudge] 摘花生 (模拟)
    [OpenJudge] 宇航员(模拟)
    [OpenJudge] 显示器(模拟)
    背包问题
    BFS_最短路径
    链表
    网站
    网站
    洛谷_递归整理
  • 原文地址:https://www.cnblogs.com/HL-blog/p/8961623.html
Copyright © 2011-2022 走看看