把一系列算法打包在一起,让他们各司其职,形成一个流水线,即“管道模型”
就像组装汽车的工厂流水线
本节涉及:
- 管道模型的基本概念和使用
- 使用管道模型进行模型选择
- 使用管道模型进行参数调优
管道模型的基本概念和使用
这种让我们若干个模型完美配合的功能,更完美的叫法——sklearn中的类(class)
1.基本概念
如果我们要对某个数据集进行进行模型训练的话,大概做法:
载入数据集【继续使用make_blobs 生成数据集】,然后对数据集进行预处理【假设需要】
#导入数据集生成器 from sklearn.datasets import make_blobs #导入数据集拆分工具 from sklearn.model_selection import train_test_split #导入预处理工具 from sklearn.preprocessing import StandardScaler #导入多层感知器神经网络 from sklearn.neural_network import MLPClassifier #导入画图工具 import matplotlib.pyplot as plt #生成样本数量200,分类2,标准差5的数据集 X,y = make_blobs(n_samples=200,centers=2,cluster_std=5) X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=38) #对数据进行预处理 scaler = StandardScaler().fit(X_train) X_train_scaled = scaler.transform(X_train) X_test_scaled = scaler.transform(X_test) print('训练集数据形态:',X_train_scaled.shape) print('测试集数据形态:',X_test_scaled.shape)
训练集数据形态: (150, 2) 测试集数据形态: (50, 2)
#这段代码中,我们选择的是MLP多层感知神经网络作为下一步要用的分类器模型【因为MLP是典型的需要进行数据预处理的算法模型】
【结果分析】
训练集中的数据样本为150个,测试集中的样本数量为50个,特征数都是2
看一下未经预处理的训练集和经过预处理的数据差别:
#原始的训练集 plt.scatter(X_train[:,0],X_train[:,1]) #经过预处理的训练集 plt.scatter(X_train_scaled[:,0],X_train_scaled[:,1],marker='^',edgecolor='k') plt.title('training set & scaled trianing set') plt.show()
【结果分析】
从图中可以看到,StandardScaler将训练集的数据变的更加聚拢——> 利于使用神经网络模型进行拟合
使用网格搜索来确定MLP的最优参数:
【本例中选择hidden_layer_sizes 和 alpha 进行实验】
#导入网格搜索 from sklearn.model_selection import GridSearchCV #设定网格搜索的模型参数字典 params = {'hidden_layer_sizes':[(50,),(100,),(100,100)],'alpha':[0.0001,0.001,0.01,0.1]} #建立网格搜索模型 grid = GridSearchCV(MLPClassifier(max_iter=1600,random_state=38),param_grid=params,cv=3) #拟合数据 grid.fit(X_train_scaled,y_train) print('最佳得分:',grid.best_score_) print('最佳参数',grid.best_params_)
最佳得分: 0.9533333333333334 最佳参数 {'alpha': 0.0001, 'hidden_layer_sizes': (100,)}
拟合测试集:
print('测试集得分:',grid.score(X_test_scaled,y_test))
测试集得分: 0.82
由于想测试的参数组合有3*4=12个,需要做12次预处理吗?
使用管道模型解决这个问题:
#导入管道模型 from sklearn.pipeline import Pipeline #建立包含预处理和神经网络的管道模型 pipeline = Pipeline([('scaler',StandardScaler()),('mlp',MLPClassifier(max_iter=1600,random_state=38))]) #拟合数据 pipeline.fit(X_train,y_train) print('使用管道模型的MLP模型评分:',pipeline.score(X_test,y_test))
使用管道模型的MLP模型评分: 0.82
【结果分析】
这段代码中,我们导入了sklearn中的 Pipeline类,然后在这条流水线中安装了两个设备——进行预处理的StandardScaler 和 最大迭代数位1600的MLP多层感知神经网络
然后用管道模型pipeline来拟合训练集,并对测试集进行评分
如果生成的数据集中数据点的量级差异不大——管道模型的得分和之前的得分差距不大
2.使用管道模型进行网格搜索
刚使用管道模型将 数据预处理和模型训练打包 到了一起
下面,进行网格搜索:
#设置参数字典 params = {'mlp__hidden_layer_sizes':[(50,),(100,),(100,100)],'mlp__alpha':[0.0001,0.001,0.01,0.1]} #将管道模型加入网格搜索 grid = GridSearchCV(pipeline,param_grid=params,cv=3) #拟合数据 grid.fit(X_train ,y_train) print('交叉验证最高分',grid.best_score_) print('最优参数',grid.best_params_) print('测试集得分',grid.score(X_test,y_test))
交叉验证最高分 0.8533333333333334 最优参数 {'mlp__alpha': 0.0001, 'mlp__hidden_layer_sizes': (100,)} 测试集得分 0.84
【随机生成的数据集不同,上述值不同】
【结果分析】
通过使用管道模型,改变了交叉验证的方式:
透视一下pipieline所进行处理的过程:
print(pipeline.steps)
[('scaler', StandardScaler(copy=True, with_mean=True, with_std=True)), ('mlp', MLPClassifier(activation='relu', alpha=0.0001, batch_size='auto', beta_1=0.9, beta_2=0.999, early_stopping=False, epsilon=1e-08, hidden_layer_sizes=(100,), learning_rate='constant', learning_rate_init=0.001, max_iter=1600, momentum=0.9, n_iter_no_change=10, nesterovs_momentum=True, power_t=0.5, random_state=38, shuffle=True, solver='adam', tol=0.0001, validation_fraction=0.1, verbose=False, warm_start=False))]
【结果分析】
pipeline.steps 把包含在管道模型中的数据预处理scaler和多层感知神经网络MLP的全部参数返回,如同流水线的工作流程
从结果可以看出,在GridsearchCV进行每一步交叉验证之前,pipeline都会对数据集和验证集进行StandardScaler预处理操作
管道模型不仅可以把 数据预处理和模型训练集结合一起,也可以将很多不同的算法打包