zoukankan      html  css  js  c++  java
  • 10-3[RF] feature selection

             main idea:

    计算每一个feature的重要性,选取重要性前k的feature;

    衡量一个feature重要的方式:如果一个feature重要,则在这个feature上加上noise,会对最后performance影响很大。

    1.feature selection的含义及优缺点

      去除冗余的特征(比如,年龄和出生年月两个特征,根据出生年月能计算出年龄)

            无关的特征(研究病人的病情,和他的医保类型没有关系)

      优点(选好特征后):

      a. 效率(feature变少,维度变低)

      b. 泛化(坏的特征被剔除,相当于剔除了特征中noise)

      c. 可解释性

      缺点(特征选择时):

      a. 特征组合的个数很多,如果遍历每种组合,计算量大

      b. 如果没有选到合适的特征,用一些不怎么好的特征进行模型训练,会带来过拟合

      c. 如果b中情况发生,则不具有可解释性

    2.feature select方法

      a.linear model

        $W^tx$,$W_i$小,表示该特征不重要

      b.permutation test

      根据加上noise和没有加noise之间的performance差距衡量特征的重要性

      image

      使用permutation,在feature i上加noise(保持了feature i的分布):

         保持其他feature不变,随机排列 $X_{ni}$ 的顺序

    3.结合OOB做feature selection(针对 Random Forest)

      根据上面的公式,可以知道,需要进行d+1次训练(d为特征的个数),原始数据上进行的训练+d(特征i上进行permutation)

      据上进行的训练

      当使用bagging时,会有一部分数据没有被使用,成为OOB数据,用这些数据进行OOB validation

      在validation时,在OOB 数据上进行permutation

  • 相关阅读:
    hive默认配置 .hiverc
    hive 行列转换
    hive 全表全字段对比
    shell 获取hive表结构
    粘包现象与解决方案
    win 关闭正在使用的端口
    pycharm格式报错: Remove redundant parentheses
    博客系统作业
    django中间件
    django的用户认证组件
  • 原文地址:https://www.cnblogs.com/porco/p/4261006.html
Copyright © 2011-2022 走看看