zoukankan      html  css  js  c++  java
  • 特征处理方法

    1. 处理计数

      1.1 二值化

      1.2 区间量化(分箱)

        固定宽度分箱:通过固定宽度分箱,每个分箱中会包含一个具体范围内的数值。这些范围可以人工定制,也可以通过自动分段来生成,它们可以是线性的、也可以是指数性的。

        分位数分箱:(分位数是可以将数据分为相等的诺干份数的值。)例如中位数、四分位数、十分位数。

      1.3 对数变换

        对数函数可以对大数值的范围进行压缩,对小数值的范围进行扩展。可以有效解决重尾分布,使数据分布更加均匀。

      1.4 特征缩放/归一化

        1.4.1 min-max缩放

         

        1.4.2 特征标准化/方差缩放

         

        1.4.3 范数归一化

         

      1.5 特征交叉

    2. 特征选择

      2.1 过滤法

        过滤法比较简单,它按照特征的发散性或者相关性指标来对各个特征进行评分,设定评分阈值或者选择阈值的个数,选择合适特征。常用的方法包括方差筛选、相关系数、假设检验(卡方检验)、互信息。

      2.2 包装法

        根据目标函数,通常是预测效果评分,每次选择部分特征或者排除部分特征。常用的方法包括递归消除特征法。

      2.3 嵌入法

        嵌入法先使用某些机器学习的算法和模型进行训练,得到各个特征的权重系数,根据权重系数从大到小来选择特征。常用的方法包括L1正则化、L2正则化、决策树等。

  • 相关阅读:
    洛谷P1908 逆序对
    codevs1690 开关灯
    洛谷P1195 口袋的天空
    洛谷P1816 忠诚
    洛谷P1536 村村通
    洛谷P3045 [USACO12FEB]牛券Cow Coupons
    洛谷P1801 黑匣子_NOI导刊2010提高(06)
    洛谷P2947 [USACO09MAR]仰望Look Up
    Android(java)学习笔记51:ScrollView用法
    Android(java)学习笔记50:通过反射获取成员变量和成员方法并且使用
  • 原文地址:https://www.cnblogs.com/LuckPsyduck/p/12128926.html
Copyright © 2011-2022 走看看