zoukankan      html  css  js  c++  java
  • 特征工程笔记

    1.特征工程介绍

    这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。

    特征工程包含内容:

    • 特征清洗
      • 清洗异常样本(缺失值填充,异常值处理)
      • 采样(数据不均衡问题)
    • 预处理
      • 归一化 数据变换
      • 降维
        • PCA 无监督降维方法 使样本具有更大的发散性
        • LDA 有监督降维方法 线性分类器 ,使相同类别的点,将会在投影后的空间中更接近
      • 特征处理 独热编码
      • 特征选择
        • 方差选择法 计算每个特征的方差 ,选择方差大于阈值的特征。
        • 相关系数法 计算特征与结果的相关系数
        • 决策树

    2. 代码实现

    1. 预处理(挖坑)
    2. 特征选择(挖坑)
    3. 降维
      • PCA
    from sklearn.decomposition import PCA
     #主成分分析法,返回降维后的数据
     #参数n_components为主成分数目
    PCA(n_components=2).fit_transform(iris.data)
    
    - LDA
    
    from sklearn.lda import LDA
    #线性判别分析法,返回降维后的数据
    #参数n_components为降维后的维数
    LDA(n_components=2).fit_transform(iris.data, iris.target)
    
  • 相关阅读:
    firefox浏览器播放音频
    Font Awesome图标字体应用及相关
    PHP输出A到Z及相关
    TensorFlow安装填坑之路(Windows环境)
    Git常用命令(一)
    spring boot 入门(一)
    JHipster简介
    Spring Boot实现文件下载功能
    IntelliJ IDEA插件系列
    什么是RESTful API?
  • 原文地址:https://www.cnblogs.com/rise0111/p/11291060.html
Copyright © 2011-2022 走看看