zoukankan      html  css  js  c++  java
  • 特征工程

    特征工程

    1. 特征提取
    2. 特征预处理
    3. 特征降维

    降维的俩种方式

    特征选择

    主成分分析-特征提取的一种方式

    特征选择

    定义:数据中包含冗余或无关变量(特征,属性,指标)。旨在从原因特征中

    方法

    Fillter(过滤式)主要探究特征本身特点,特征与特征和目标值之间关联

    方差选择法:低方差特征过滤

    相关系数

    Embedded(嵌入式):自动选择特征(特征与目标值之间的关联)

    相关系数

    pearson相关系数

    斯皮尔曼相关系统

    线性相关 非线性相关

    皮尔逊相关系数

    作用

    反映变量之间相关关系密切程的统计指标

    绝对值【0,1】 取值【-1,1】

    绝对值等于1 关系程度大

    等于0 完全无关

    负数 负相关

    正数 正相关

    绝对值 <0.4 低度相关

    绝对值【0.4,0.7】 x显著相关

    绝对值 【0.7,1】 高度线性相关


    关系矩阵

    目标与特征关系(选择r值大的特征)

    特征与特征关系(r 高度线性相关只保留一个特征  共线性)


    主成分分析

    什么是主成分分析

    尽量少损失信息的前提下实现特征降维(生成一个新的变量)

    API

    sklearn.decomposition.PCA(n_components=None)

    • 将数据分解为较低维数空间
    • n_components:
      • 小数:表示保留百分之多少的信息
      • 整数:减少到多少特征
    • PCA.fit_transform(X) X:numpy array格式的数据[n_samples,n_features]
    • 返回值:转换后指定维度的array

    算法选择

     

  • 相关阅读:
    【就业】腾讯VS百度
    MySQL基础知识
    PHP读取远程文件并保存
    【GTK3.0】背景设置
    【GTK】信号量(signal)大全
    c# 调用win32 api
    PHP写窗体程序
    一个苏州IT人的5年挨踢经历面试篇(之二)
    【c++ Primer 】 4.10复习题 12题(int)、(int&)和(int*)
    线段树技巧
  • 原文地址:https://www.cnblogs.com/mujun95/p/11883239.html
Copyright © 2011-2022 走看看