zoukankan      html  css  js  c++  java
  • Spark机器学习——模型选择与参数调优之交叉验证

    spark 模型选择与超参调优

    机器学习可以简单的归纳为 通过数据训练y = f(x) 的过程,因此定义完训练模型之后,就需要考虑如何选择最终我们认为最优的模型。

    如何选择最优的模型,就是本篇的主要内容:

    • 模型验证的方法
    • 超参数的选择
    • 评估函数的选择

    模型验证的方法

    在《统计学习方法》这本书中,曾经讲过模型验证的方法有三种,分别是简单的交叉验证S折交叉验证留一交叉验证

    简单的交叉验证

    即把全部数据按照比例分割成两部分,分别是训练集和测试集。在训练集训练模型,在测试集测试效果,最终选择一个代价比较小的结果。一般是0.75。

    S折交叉验证

    设置S为一个数,一般是3或者10居多。如果是3,那么前2份作为训练集,最后一份作为测试集。

    留一交叉验证

    如果S的个数正好是样本的容量,就是留一交叉验证。

    PS:
    训练集是用于训练模型,测试集适用于判断此次训练效果。

    在Spark MLLib中,为我们提供了两种验证方法,分别是

    • Cross-Validation : S折交叉验证
    • Train-ValidationSplit:简单交叉验证

    超参数的选择

    在Spark MLLib中,超参数可以通过上面的验证方法,作为参数传进去:

    // 定义超参数集合
    val paramGrid = new ParamGridBuilder()
      .addGrid(hashingTF.numFeatures, Array(10, 100, 1000))
      .addGrid(lr.regParam, Array(0.1, 0.01))
      .build()
    // 定义验证器
    val cv = new CrossValidator()
      .setEstimator(pipeline)
      .setEvaluator(new BinaryClassificationEvaluator)
      .setEstimatorParamMaps(paramGrid)
      .setNumFolds(2)  // Use 3+ in practice
    

    其中hashingTF给设置了3个参数、lr给了2个参数,如果正常我们想要验证这6个参数的组合,应该需要验证6次。但是在Spark中,基于Validator可以一次性验证出来,并自动选择最后代价最小的那个。

    PS
    上面S折交叉验证中S的参数为2,因此内部只有一个训练集;如果是3,那么最终运行的训练次数将会是 (3*2)*2 = 12次。

    评估函数的确定

    Spark提供了三种评估函数:

    • RegressionEvaluator用于回归预测的问题
    • BinaryClassificationEvaluator用于二分类问题
    • MulticlassClassificationEvaluator用于多分类问题

    详细的代码,可以参考:
    http://spark.apache.org/docs/latest/ml-tuning.html

  • 相关阅读:
    __module__ 和 __class__
    __str__ 和 __repr
    __getitem__ __setitem__ __delitem__ 使用
    授权
    __getattr__ __delattr__ __setattr__ __getattribute__使用(重写python提供的错误信息)
    __import__
    hasattr getattr setattr delattr --> (反射)
    类三大特性(继承 多态 封装)
    静态方法@staticmethod
    类方法@classmethod
  • 原文地址:https://www.cnblogs.com/xing901022/p/8385434.html
Copyright © 2011-2022 走看看