zoukankan      html  css  js  c++  java
  • 特征挖掘之对二阶特征的提取

    在进行有监督的机器学习时,特征工程显得尤其重要,本文介绍的是在人工提取一些特征之后,怎样对这些特征进行二阶组合提取;

    在进行一系列的摸索之后,得到3个基本点:

    1. 对连续的特征进行离散化处理:
      • 最优分箱(见前面的博文
      • 进行WOE变换(将原特征用分箱后的WOE值替换)
    2. 离散特征:
      • 如果离散特征的维度较低(低到多少自己定,可根据前面的博文输出结果决定),没有必要对其进行WOE变换
    3. 二阶组合要有一定的针对性
      • 待组合的两个特征的重要性(或者IV)都比较低
      • 待组合的两个特征的重要性(或者IV)一高一低
      • 不建议对重要性很高的特征进行操作,当然也可以使用,但最后一定要评测好

    二阶特征组合更多的应该是在给定某特征条件下的组合,而不是盲目的对所有的特征进行WOE变换之后进行简单的组合,这样会出问题,组合出来完全没意义(其实是在吐槽上面瞎指导的人)

     未完待续...

  • 相关阅读:
    URAL1966 Cipher Message 3
    hdu5307 He is Flying
    UVA12633 Super Rooks on Chessboard
    spoj-TSUM Triple Sums
    bzoj3160 万径人踪灭
    bzoj2194 快速傅立叶之二
    FFT NTT 模板
    NOI2009 植物大战僵尸
    最长k可重线段集问题
    最长k可重区间集问题
  • 原文地址:https://www.cnblogs.com/leixingzhi7/p/9378831.html
Copyright © 2011-2022 走看看