Spark快速获得CrossValidator的最佳模型参数

zoukankan html css js c++ java

Spark快速获得CrossValidator的最佳模型参数
Spark提供了便利的Pipeline模型，可以轻松的创建自己的学习模型。

但是大部分模型都是需要提供参数的，如果不提供就是默认参数，那么怎么选择参数就是一个比较常见的问题。Spark提供在org.apache.spark.ml.tuning包下提供了模型选择器，可以替换参数然后比较模型输出。

目前有CrossValidator和TrainValidationSplit两种，比如一个文本情感预测模型。

Pipeline只有三步，第一步切词，第二步HashingTF，第三步NB分类
Pipeline pipeline = new Pipeline() .setStages(new PipelineStage[]{tokenizer, hashingTF, naiveBayes}); ParamMap[] paramMaps = new ParamGridBuilder() .addGrid(hashingTF.numFeatures(), new int[]{10000, 100000, 500000, 1000000}) .build(); CrossValidator cv = new CrossValidator() .setEstimator(pipeline) .setEvaluator(new BinaryClassificationEvaluator()) .setEstimatorParamMaps(paramMaps);
其中HashingTF的参数选择非常重要，我们这里就随便尝试几种，然后放在CrossValidator中去。

最后我们会获得一个CrossValidatorModel类，这里有两种选择。

第一种是自己手动获取其中的参数，因为bestModel的参数就是我们最后选择的参数
Pipeline bestPipeline = (Pipeline) model.bestModel().parent(); PipelineStage stage = bestPipeline.getStages()[1]; stage.extractParamMap().get(stage.getParam("numFeatures"));
这种方法可以获得值，但是需要根据你模型情况修改获取的位置。

如果你只是想知道最佳参数是多少，并不是需要在上下文中使用，那还有一个更简单的方法。

修改log4j的配置，添加
log4j.logger.org.apache.spark.ml.tuning.TrainValidationSplit=INFO log4j.logger.org.apache.spark.ml.tuning.CrossValidator=INFO
效果如下：
查看全文

相关阅读:
使用数字进行字符遍历
 注意：C++中double的表示是有误差的
 ER模型到关系模型的转换规则
 SQL中查询优化的主要策略
 分解成3NF保持函数依赖且为无损连接的算法
 函数依赖集闭包、属性集闭包、超键、候选键和最小函数依赖集的求法。
分解成3NF的保持函数依赖的分解算法：
模式分解是否为无损连接的判断方法
 字符串处理技巧
 sort+结构体实现二级排序

原文地址：https://www.cnblogs.com/itboys/p/9827567.html