zoukankan      html  css  js  c++  java
  • 特征工程笔记

    1.特征工程介绍

    这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。

    特征工程包含内容:

    • 特征清洗
      • 清洗异常样本(缺失值填充,异常值处理)
      • 采样(数据不均衡问题)
    • 预处理
      • 归一化 数据变换
      • 降维
        • PCA 无监督降维方法 使样本具有更大的发散性
        • LDA 有监督降维方法 线性分类器 ,使相同类别的点,将会在投影后的空间中更接近
      • 特征处理 独热编码
      • 特征选择
        • 方差选择法 计算每个特征的方差 ,选择方差大于阈值的特征。
        • 相关系数法 计算特征与结果的相关系数
        • 决策树

    2. 代码实现

    1. 预处理(挖坑)
    2. 特征选择(挖坑)
    3. 降维
      • PCA
    from sklearn.decomposition import PCA
     #主成分分析法,返回降维后的数据
     #参数n_components为主成分数目
    PCA(n_components=2).fit_transform(iris.data)
    
    - LDA
    
    from sklearn.lda import LDA
    #线性判别分析法,返回降维后的数据
    #参数n_components为降维后的维数
    LDA(n_components=2).fit_transform(iris.data, iris.target)
    
  • 相关阅读:
    Python前言之Markdown使用
    Linux压缩命令
    ubuntu安装nodejs
    linux搭建nginx流服务器,OBS推流,VCL拉流播放
    nginx配置文件
    控制语句
    鼠标用户和键盘用户
    if else
    cookie自封装对象
    C#:基于WMI查询USB设备信息 及 Android设备厂商VID列表
  • 原文地址:https://www.cnblogs.com/rise0111/p/11291060.html
Copyright © 2011-2022 走看看