RandomForest中的feature_importance

zoukankan html css js c++ java

RandomForest中的feature_importance

随机森林算法（RandomForest）的输出有一个变量是 feature_importances_ ，翻译过来是特征重要性，具体含义是什么，这里试着解释一下。

参考官网和其他资料可以发现，RF可以输出两种 feature_importance，分别是Variable importance和Gini importance，两者都是feature_importance，只是计算方法不同。

Variable importance

选定一个feature M，在所有OOB样本的feature M上人为添加噪声，再测试模型在OOB上的判断精确率，精确率相比没有噪声时下降了多少，就表示该特征有多重要。

假如一个feature对数据分类很重要，那么一旦这个特征的数据不再准确，对测试结果会造成较大的影响，而那些不重要的feature，即使受到噪声干扰，对测试结果也没什么影响。这就是 Variable importance 方法的朴素思想。

[添加噪声：这里官网给出的说法是 randomly permute the values of variable m in the oob cases，permute的含义我还不是很确定，有的说法是打乱顺序，有的说法是在数据上加入白噪声。]

Gini importance

选定一个feature M，统计RF的每一棵树中，由M形成的分支节点的Gini指数下降程度（或不纯度下降程度）之和，这就是M的importance。

两者对比来看，前者比后者计算量更大，后者只需要一边构建DT，一边做统计就可以。从sklearn的官方文档对feature_importances_参数的描述来看，sklearn应当是使用了Gini importance对feature进行排序，同时sklearn把所有的Gini importance以sum的方式做了归一化，得到了最终的feature_importances_输出参数。

参考文献：

RandomForest 官网 https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm

查看全文

相关阅读:
Javascript逻辑运算认识
 Javascript基本数据认识
 python爬虫数据提取之bs4的使用方法
 权限和频率组件的使用
 版本控制和认证组件的使用
 drf中View和router的详解
 Serializers组件详解
 REST架构简介
 模型层中QuerySet的学习
 最全总结！聊聊 Python 发送邮件的几种方式

原文地址：https://www.cnblogs.com/xxiaolige/p/9234188.html

RandomForest中的feature_importance

Variable importance

Gini importance