zoukankan      html  css  js  c++  java
  • 特征处理方法

    1. 处理计数

      1.1 二值化

      1.2 区间量化(分箱)

        固定宽度分箱:通过固定宽度分箱,每个分箱中会包含一个具体范围内的数值。这些范围可以人工定制,也可以通过自动分段来生成,它们可以是线性的、也可以是指数性的。

        分位数分箱:(分位数是可以将数据分为相等的诺干份数的值。)例如中位数、四分位数、十分位数。

      1.3 对数变换

        对数函数可以对大数值的范围进行压缩,对小数值的范围进行扩展。可以有效解决重尾分布,使数据分布更加均匀。

      1.4 特征缩放/归一化

        1.4.1 min-max缩放

         

        1.4.2 特征标准化/方差缩放

         

        1.4.3 范数归一化

         

      1.5 特征交叉

    2. 特征选择

      2.1 过滤法

        过滤法比较简单,它按照特征的发散性或者相关性指标来对各个特征进行评分,设定评分阈值或者选择阈值的个数,选择合适特征。常用的方法包括方差筛选、相关系数、假设检验(卡方检验)、互信息。

      2.2 包装法

        根据目标函数,通常是预测效果评分,每次选择部分特征或者排除部分特征。常用的方法包括递归消除特征法。

      2.3 嵌入法

        嵌入法先使用某些机器学习的算法和模型进行训练,得到各个特征的权重系数,根据权重系数从大到小来选择特征。常用的方法包括L1正则化、L2正则化、决策树等。

  • 相关阅读:
    SVN项目提交报错
    Post请求报文压缩
    mysql表结构的修改-sql记录
    项目内添加quartz定时任务
    Nginx配置-通过nginx访问项目
    Mysql的使用 -简单的索引
    使用git第一次成功,记录
    Spring P命名空间 02
    Mybatis 一级、二级缓存
    延迟加载
  • 原文地址:https://www.cnblogs.com/LuckPsyduck/p/12128926.html
Copyright © 2011-2022 走看看