变换器通常与分类器,回归器或其他估计器组合以构建复合估计器。最常见的工具是 管道。管道通常与FeatureUnion结合使用 ,后者将变换器的输出连接成复合特征空间。 TransformedTargetRegressor处理转换目标 (即对数转换y)。相反,Pipelines只转换观察到的数据(X)。
管道:链式估算器
Pipeline可用于将多个估算器链接成一个。这是有用的,因为在处理数据时通常存在固定的步骤序列,例如特征选择,标准化和分类。Pipeline这里有多种用途:
方便和封装
你只需要打电话fit和predict你的一次数据,以适应估计的整个序列。
联合参数选择
您可以 立即对管道中所有估算器的参数进行网格搜索。
安全
通过确保使用相同的样本来训练变压器和预测器,管道有助于避免将测试数据中的统计信息泄漏到交叉验证中的训练模型中。
管道中的所有估算器(最后一个除外)必须是变换器(即必须有transform方法)。最后一个估计器可以是任何类型(变换器,分类器等)。
说的很对,我已经放弃自己写了,那是相当的浪费时间,并行缓存都要自己写,还有其他麻烦就不说了!
Pipelines and composite estimators
写程序归根到底就是做两件事---算法实现和错误处理