一、集成学习方法之随机森林
集成学习通过建立几个模型组合来解决单一模型预测的问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成单预测,因此优于任何一个单分类的做出预测。
1、什么是随机森林
随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。假设你训练了n棵树,其中有n-2棵树的结果类别是1,2棵树的结果的类别是2,那么最后的类别结果就是1。
2、随机森林创建流程
在创建随机森林之前,我们需要先知道随机森林中单棵决策树的创建流程:
- 随机在N个样本中以有放回抽样的方式,取样N次(样本有可能重复)
- 随机在M个特征中选出m个特征(m<M)
可以以这种方式创建多棵树,显然每棵树的样本和特征大多不一样。
值得注意的是上面的抽样是:有放回的抽样,如果不是有放回的抽样,这样每棵树的训练样本都是不同,之间也没有交集,也就是说每棵树训练出来都是有很大的差异的;而随机森林最后分类取决于多棵树的投票表决。
二、集成学习API
1、class sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion=’gini’, max_depth=None, bootstrap=True, random_state=None)
上述就是随机森林的分类器,其中:
- n_estimators:integer,optional(default = 10) 森林里的树木数量
- criteria:string,可选(default =“gini”)分割特征的测量方法
- max_depth:integer或None,可选(默认=无)树的最大深度
- bootstrap:boolean,optional(default = True)是否在构建树时使用放回抽样
2、实例
import pandas as pd from sklearn.model_selection import train_test_split,GridSearchCV from sklearn.feature_extraction import DictVectorizer from sklearn.ensemble import RandomForestClassifier def decision(): """ 决策树对泰坦尼克号乘客进行生死预测 :return: None """ # 读取数据 data = pd.read_csv("./data/决策树数据/data.csv") # 选取特征值、目标值 x = data[['pclass', 'age', 'sex']] y = data['survived'] # 处理缺失值 x['age'].fillna(x['age'].mean(), inplace=True) print(x) """ pclass age sex 1st 29.000000 female 1st 2.000000 female ... """ # 分割数据集为训练集和测试集 x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25) # 特征工程,pclass与sex都是非数字的值,所以需要将其值得类别进行one-hot编码,使用字典抽取,age值不变 dict = DictVectorizer(sparse=False) x_train = dict.fit_transform(x_train.to_dict(orient='records')) x_test = dict.transform(x_test.to_dict(orient='records')) print(dict.get_feature_names()) # ['age', 'pclass=1st', 'pclass=2nd', 'pclass=3rd', 'sex=female', 'sex=male'] print(x_train) """ [[32. 0. 0. 1. 0. 1. ] ... [58. 1. 0. 0. 1. 0. ] [35. 0. 1. 0. 0. 1. ] [31.19418104 0. 0. 1. 0. 1. ]] """ # 用随机森林进行预测(超参数调优) rf = RandomForestClassifier() param = {"n_estimators":[120, 200, 300, 500],"max_depth":[5, 8, 15]} # 网格搜索与交叉验证 gc = GridSearchCV(rf,param_grid=param,cv=2) gc.fit(x_train,y_train) # 准确率 print(gc.score(x_test,y_test)) #参数模型 print(gc.best_params_) """ {'max_depth': 5, 'n_estimators': 300} """ if __name__ == '__main__': decision()
随机森林几乎没有什么缺点,它有以下的优点:
- 在当前所有算法中,具有极好的准确率
- 能够有效地运行在大数据集上
- 能够处理具有高维特征的输入样本,而且不需要降维
- 能够评估各个特征在分类问题上的重要性
- 对于缺省值问题也能够获得很好得结果