我们都知道,在调用sklearn中的随机森林时,是可以通过feature_importances_查看每个特征的重要程度的。
其主要通过置换检验来求得特征的重要程度。
如果特征k是重要的,那么用随机的值将该列特征破坏,重新训练和评估,计算模型的泛化能里的退化程度,即:
inportance(k) = Performance(G) - performance(G')
退化的程度可以度量特征k的重要性。