zoukankan      html  css  js  c++  java
  • 特征处理方法

    1. 处理计数

      1.1 二值化

      1.2 区间量化(分箱)

        固定宽度分箱:通过固定宽度分箱,每个分箱中会包含一个具体范围内的数值。这些范围可以人工定制,也可以通过自动分段来生成,它们可以是线性的、也可以是指数性的。

        分位数分箱:(分位数是可以将数据分为相等的诺干份数的值。)例如中位数、四分位数、十分位数。

      1.3 对数变换

        对数函数可以对大数值的范围进行压缩,对小数值的范围进行扩展。可以有效解决重尾分布,使数据分布更加均匀。

      1.4 特征缩放/归一化

        1.4.1 min-max缩放

         

        1.4.2 特征标准化/方差缩放

         

        1.4.3 范数归一化

         

      1.5 特征交叉

    2. 特征选择

      2.1 过滤法

        过滤法比较简单,它按照特征的发散性或者相关性指标来对各个特征进行评分,设定评分阈值或者选择阈值的个数,选择合适特征。常用的方法包括方差筛选、相关系数、假设检验(卡方检验)、互信息。

      2.2 包装法

        根据目标函数,通常是预测效果评分,每次选择部分特征或者排除部分特征。常用的方法包括递归消除特征法。

      2.3 嵌入法

        嵌入法先使用某些机器学习的算法和模型进行训练,得到各个特征的权重系数,根据权重系数从大到小来选择特征。常用的方法包括L1正则化、L2正则化、决策树等。

  • 相关阅读:
    jps, jstack, jmap, jhat, jstat
    SpringBoot工程可执行jar修改为可执行war
    SCP后台运行
    frp实现内网远程访问
    SpringBoot项目执行脚本, 自动拉取最新代码并重启
    文本聚合函数(wm_concat, listagg, group_concat, string_agg)
    linux磁盘空间占用分析
    jdbc打印sql语句-p6spy配置
    Linux系统的buff/cache缓存清理脚本
    环境变量及免密登录
  • 原文地址:https://www.cnblogs.com/LuckPsyduck/p/12128926.html
Copyright © 2011-2022 走看看