机器学习实战基础（三十六）：随机森林（三）之 RandomForestClassiﬁer 之重要属性和接口

zoukankan html css js c++ java

机器学习实战基础（三十六）：随机森林（三）之 RandomForestClassiﬁer 之重要属性和接口
重要属性和接口

至此，我们已经讲完了所有随机森林中的重要参数，为大家复习了一下决策树的参数，并通过n_estimators，random_state，boostrap和oob_score这四个参数帮助大家了解了袋装法的基本流程和重要概念。
同时，我们还介绍了.estimators_ 和 .oob_score_ 这两个重要属性。除了这两个属性之外，作为树模型的集成算法，随机森林自然也有.feature_importances_这个属性。

随机森林的接口与决策树完全一致，因此依然有四个常用接口：apply, ﬁt, predict和score。除此之外，还需要注意随机森林的predict_proba接口，这个接口返回每个测试样本对应的被分到每一类标签的概率，标签有几个分类就返回几个概率。如果是二分类问题，则predict_proba返回的数值大于0.5的，被分为1，小于0.5的，被分为0。
传统的随机森林是利用袋装法中的规则，平均或少数服从多数来决定集成的结果，而sklearn中的随机森林是平均每个样本对应的predict_proba返回的概率，得到一个平均概率，从而决定测试样本的分类。
#大家可以分别取尝试一下这些属性和接口 rfc = RandomForestClassifier(n_estimators=25) rfc = rfc.fit(Xtrain, Ytrain) rfc.score(Xtest,Ytest) rfc.feature_importances_ rfc.apply(Xtest) rfc.predict(Xtest) rfc.predict_proba(Xtest)
掌握了上面的知识，基本上要实现随机森林分类已经是没问题了。从红酒数据集的表现上来看，随机森林的效用比
单纯的决策树要强上不少，大家可以自己更换其他数据来试试看（比如上周完整课案例中的泰坦尼克号数据）。

Bonus：Bagging的另一个必要条件

之前我们说过，在使用袋装法时要求基评估器要尽量独立。其实，袋装法还有另一个必要条件：基分类器的判断准确率至少要超过随机分类器，即时说，基分类器的判断准确率至少要超过50%。
之前我们已经展示过随机森林的准确率公式，基于这个公式，我们画出了基分类器的误差率ε和随机森林的误差率之间的图像。
大家可以自己运行一下这段代码，看看图像呈什么样的分布。
import numpy as np x = np.linspace(0,1,20) y = [] for epsilon in np.linspace(0,1,20): E = np.array([comb(25,i)*(epsilon**i)*((1-epsilon)**(25-i)) for i in range(13,26)]).sum() y.append(E) plt.plot(x,y,"o-",label="when estimators are different") plt.plot(x,x,"--",color="red",label="if all estimators are same") plt.xlabel("individual estimator's error") plt.ylabel("RandomForest's error") plt.legend() plt.show()
可以从图像上看出，当基分类器的误差率小于0.5，即准确率大于0.5时，集成的效果是比基分类器要好的。相反，当基分类器的误差率大于0.5，袋装的集成算法就失效了。所以在使用随机森林之前，一定要检查，用来组成随机森林的分类树们是否都有至少50%的预测正确率。
查看全文

相关阅读:
Autoit 使用
 小狼毫安装五笔输入法
 MIT 6.824 MapReduce
基于JDBC封装数据库基本CURD操作
 利用反射特性完成对象的拷贝
 基于HTTP协议和HttpURLConnection完成网上资源的爬取
 应用多线程解决文件拷贝加进度条项目
 java动态代理详解
 [转]String、StringBuffer与StringBuilder之间区别
 “内聚性”和“耦合性”

原文地址：https://www.cnblogs.com/qiu-hua/p/13032428.html

机器学习实战基础（三十六）：随机森林 （三）之 RandomForestClassiﬁer 之 重要属性和接口

重要属性和接口

Bonus：Bagging的另一个必要条件

机器学习实战基础（三十六）：随机森林（三）之 RandomForestClassiﬁer 之重要属性和接口