sciki-learn spark 中自定义转换器

zoukankan html css js c++ java

sciki-learn spark 中自定义转换器

尽管Spark ML管道提供了各种各样的算法，你仍可能想要额外的功能，并且不脱离管道模型。在Spark Mllib中，这算不上什么问题，你可以通过RDD的变换来实现你自己的算法，并继续下去。对于Spark ML 管道来说，同样的方法是可行的，但是我们会失去一些管道所具备的优良特性，包括自动执行元算法的能力，例如交叉验证的参数搜索。在本文中，你会从标准的wordcount例子入手（在大数据方面，你是不可能真正躲开wordcount例子的），了解到如何扩展Spark ML 管道模型。

为了将你自己的算法加入Spark管道中来，你需要实现Estimator或者是Transformer，它们都实现了PipelineStage接口。对于那些不需要训练的算法，你可以实现Transformer接口，而对于那些需要训练的算法，你需要实现Estimator接口，它们都定义在org.apache.spark.ml下(都实现了基类 PipelineStage)。要说明的是，训练并不是只限于复杂的机器学习模型，即使是最大最小值区间缩放器也需要训练来确定范围。如果你的算法需要训练，它们必须以Estimator来构建而不是Transformer。

注：直接使用PipelineStage是不可行的，因为管道内部使用了反射机制，假定了所有的管道stage要么是一个Estimator，要么就是Transformer。

除了显而易见的transform和fit方法，所有的管道的stage需要提供transformSchema，以及一个copy构造器或者实现一个可以为你提供这些功能的类。copy是用来制作一个当前stage的拷贝，合并入任何新指定的参数，可以简称为defaultCopy（除非你的类对构造器有特别的考虑）。

查看全文

相关阅读:
[bzoj4025]二分图
 [hdu4010]: Query on The Trees
[bzoj3514]: Codechef MARCH14 GERALD07加强版
 [hdu3943]K-th Nya Number
[hdu5632][BC#73 1002]Rikka with Array
在Eclipse中使用建立使用Gradle做依赖管理的Spring Boot工程
 Spring Boot 添加Shiro支持
 常用Linux命令
 HTML5之API
JavaScript的客户端存储

原文地址：https://www.cnblogs.com/wdmx/p/9945309.html