zoukankan      html  css  js  c++  java
  • 特征工程

    特征工程

    1. 特征提取
    2. 特征预处理
    3. 特征降维

    降维的俩种方式

    特征选择

    主成分分析-特征提取的一种方式

    特征选择

    定义:数据中包含冗余或无关变量(特征,属性,指标)。旨在从原因特征中

    方法

    Fillter(过滤式)主要探究特征本身特点,特征与特征和目标值之间关联

    方差选择法:低方差特征过滤

    相关系数

    Embedded(嵌入式):自动选择特征(特征与目标值之间的关联)

    相关系数

    pearson相关系数

    斯皮尔曼相关系统

    线性相关 非线性相关

    皮尔逊相关系数

    作用

    反映变量之间相关关系密切程的统计指标

    绝对值【0,1】 取值【-1,1】

    绝对值等于1 关系程度大

    等于0 完全无关

    负数 负相关

    正数 正相关

    绝对值 <0.4 低度相关

    绝对值【0.4,0.7】 x显著相关

    绝对值 【0.7,1】 高度线性相关


    关系矩阵

    目标与特征关系(选择r值大的特征)

    特征与特征关系(r 高度线性相关只保留一个特征  共线性)


    主成分分析

    什么是主成分分析

    尽量少损失信息的前提下实现特征降维(生成一个新的变量)

    API

    sklearn.decomposition.PCA(n_components=None)

    • 将数据分解为较低维数空间
    • n_components:
      • 小数:表示保留百分之多少的信息
      • 整数:减少到多少特征
    • PCA.fit_transform(X) X:numpy array格式的数据[n_samples,n_features]
    • 返回值:转换后指定维度的array

    算法选择

     

  • 相关阅读:
    移动网络介绍
    统一导航路由方案
    负载均衡汇总
    Openfire部署和配置说明
    CDN技术介绍
    流媒体
    WebSocket和HTTP的区别与联系
    zabbix 邮件报警
    Linux系统故障-Repair filesystem
    redhat 6.8 配置yum源
  • 原文地址:https://www.cnblogs.com/mujun95/p/11883239.html
Copyright © 2011-2022 走看看