zoukankan      html  css  js  c++  java
  • 机器学习笔记(三) 数据降维

    数据降维

    这里所说的降维是指减少特征的数量。通常有两种方法可以实现:1.特征选择  2.主成分分析

    特征选择是什么?

    特征选择就是单纯的从提取到的所有的特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变值,可以不改变值,但是选择后的特征维数肯定比选择前的少。

    特征选择方法:

    1.Filter(过滤式):Variance threshold

    2.Embedded(嵌入式):正则化,决策树

    3.Wrapper(包裹式)

    基于过滤式特征选择方法实例如下:

    from sklearn.feature_selection import VarianceThreshold
    
    
    def var():
        """
        特征选择-删除低方差的特征
        :return:
        """
        var=VarianceThreshold(threshold=1.0)
        data=var.fit_transform([[0,2,0,3],[0,1,4,3],[0,1,2,3]])
        print(data)
    
        return None
    
    
    if __name__=='__main__':
        var()

    PCA是什么?

    PAC本质上是一种分析简化数据集的技术。

    目的是使数据维数降低,损失少量信息。可以消减回归分析或者聚类分析中特征的数量。

    from sklearn.decomposition import PCA
    
    def pca():
        """
        主成分分析进行降维
        :return:
        """
        pca=PCA(n_components=0.9)
        data=pca.fit_transform([[0,2,0,3],[0,1,4,3],[0,1,2,3]])
        print(data)
        return None
    
    if __name__=='__main__':
     
        pca()
  • 相关阅读:
    递归删除指定目录下的 .git 文件
    mina 字节数组编解码器的写法 I
    爬取大众点评
    使用Scrapy抓取数据
    Redis:默认配置文件redis.conf详解
    Redis:五种数据类型的简单增删改查
    使用python-docx生成Word文档
    IT部门域事件与业务分析
    因为说比做容易,所以要少说慎说
    主要问题
  • 原文地址:https://www.cnblogs.com/doctorXiong/p/10588177.html
Copyright © 2011-2022 走看看