zoukankan      html  css  js  c++  java
  • 通过 Continual Learning 提高 ML.NET 模型准确性并增强性能

    从事机器学习的学者大多认为持续学习(Continual Learning)是迈向人工智能的根本一步。持续学习是模型模仿人类在整个生命周期中不断从数据流中学习、微调、转移知识和技能的能力。实际上,这意味着模型在进入新数据时能自主学习和适应生产。过去提出自动自适应学习(Auto-adaptive Learning),或持续自动机器学习(Continual AutoML)就是出于对这项能力的支持。在机器学习中,目标是通过生产环境部署模型,通过持续学习,我们希望使用进入生产环境的数据,并激活训练过程重新训练模型。

    持续学习带来的好处是显而易见的,典型的就是商品销售推荐。随着不同时期客户流量的特点热销商品会发生变化,比如以往在运动季节买饮料的客户,过了几个月会慢慢改成买纯净水了,这个过程不是突然转变的,如果没有持续学习的机制让推荐模型适应,那就要等到人为感知到模型的不准确,然后再重新收集数据训练新模型,这样一来不仅要耗费专门的时间处理,还错过了好的销售时机。

    持续学习最重要的构件之一就是 AutoML,当我们有了预处理后的数据集或数据流,也设计好了在管道中训练的流程闭环,AutoML 才会发挥价值,在算法种类、超参数、迭代方式、内存消耗、指标、准确性等方面择优平衡。ML.NET 在 1.x 版本后就已经具备了 AutoML 的特性,这在我以前的文章介绍过了。这次仅介绍 ML.NET 是怎么开展重新训练步骤的。

    到目前已知 ML.NET 中重新训练支持以下这些算法:

    • AveragedPerceptronTrainer
    • FieldAwareFactorizationMachineTrainer
    • LbfgsLogisticRegressionBinaryTrainer
    • LbfgsMaximumEntropyMulticlassTrainer
    • LbfgsPoissonRegressionTrainer
    • LinearSvmTrainer
    • OnlineGradientDescentTrainer
    • SgdCalibratedTrainer
    • SgdNonCalibratedTrainer
    • SymbolicSgdLogisticRegressionBinaryTrainer

    以回归算法训练的模型为例,假设我们已经有了如下的训练过程:

    // Define data preparation estimator
    IEstimator<ITransformer> dataPrepEstimator =
        mlContext.Transforms.Concatenate("Features", new string[] { "Size", "Prices" })
            .Append(mlContext.Transforms.NormalizeMinMax("Features"));
    
    // Create data preparation transformer
    ITransformer dataPrepTransformer = dataPrepEstimator.Fit(data);
    
    // Define OnlineGradientDescent regression algorithm estimator
    var ogdEstimator = mlContext.Regression.Trainers.OnlineGradientDescent();
    
    // Pre-process data using data prep operations
    IDataView transformedData = dataPrepTransformer.Transform(data);
    
    // Train regression model
    RegressionPredictionTransformer<LinearRegressionModelParameters> trainedModel = ogdEstimator.Fit(transformedData);

    保存数据准备管道和已训练的模型,我们一般使用以下方式:

    // Save Data Prep transformer
    mlContext.Model.Save(dataPrepTransformer, data.Schema, "data_preparation_pipeline.zip");
    
    // Save Trained Model
    mlContext.Model.Save(trainedModel, transformedData.Schema, "model.zip");

    当我们开始要重新训练前,反过来要先加载预训练的模型,使用以下代码:

    // Create MLContext
    MLContext mlContext = new MLContext();
    
    // Define DataViewSchema of data prep pipeline and trained model
    DataViewSchema dataPrepPipelineSchema, modelSchema;
    
    // Load data preparation pipeline
    ITransformer dataPrepPipeline = mlContext.Model.Load("data_preparation_pipeline.zip", out dataPrepPipelineSchema);
    
    // Load trained model
    ITransformer trainedModel = mlContext.Model.Load("model.zip", out modelSchema);

    然后就可以提取预训练的模型参数,加载模型后,通过访问预训练模型的 Model 属性来提取已学习的模型参数。

    // Extract trained model parameters
    LinearRegressionModelParameters originalModelParameters =
        ((ISingleFeaturePredictionTransformer<object>)trainedModel).Model as LinearRegressionModelParameters;

    重新训练模型的过程与训练模型的过程没有什么不同。 唯一的区别是,除了数据之外,Fit 方法还将原始学习模型参数作为输入,并将它们用作重新训练过程的起点。

    //Load New Data
    IDataView newData = mlContext.Data.LoadFromEnumerable<SomeData>(someData);
    
    // Preprocess Data
    IDataView transformedNewData = dataPrepPipeline.Transform(newData);
    
    // Retrain model
    RegressionPredictionTransformer<LinearRegressionModelParameters> retrainedModel =
        mlContext.Regression.Trainers.OnlineGradientDescent()
            .Fit(transformedNewData, originalModelParameters);

    当然我们总是想比较一下模型参数,看看是否真的进行了重新训练。一种方法是比较重新训练模型的参数是否与原始模型的参数不同。 下面的代码示例将原始模型与重新训练模型的权重进行比较,并将它们输出到控制台。

    // Extract Model Parameters of re-trained model
    LinearRegressionModelParameters retrainedModelParameters = retrainedModel.Model as LinearRegressionModelParameters;
    
    // Inspect Change in Weights
    var weightDiffs =
        originalModelParameters.Weights.Zip(
            retrainedModelParameters.Weights, (original, retrained) => original - retrained).ToArray();
    
    Console.WriteLine("Original | Retrained | Difference");
    for(int i=0;i < weightDiffs.Count();i++)
    {
        Console.WriteLine($"{originalModelParameters.Weights[i]} | {retrainedModelParameters.Weights[i]} | {weightDiffs[i]}");
    }

    下表演示了比较模型参数的输出效果, 从表格中反映了四项参数权重发生了调整:

    原始 重新训练后  差值
    33039.86 56293.76 -23253.9
    29099.14 49586.03 -20486.89
    28938.38  48609.23 -19670.85
    30484.02 53745.43 -23261.41


     

      
     
     

  • 相关阅读:
    实现Vector对象的序列化的例子
    BigDecimal
    java.io.Serializable引发的问题——什么是序列化?在什么情况下将类序列化?
    删除表中重复记录的方法
    使用PreparedStatement为不同的数据库编写可移植的数据库存取方法
    hsqldb介绍
    ant管理项目
    在jsp中点击按钮,在bean中把已经查出的数据,生成csv文件,然后在ie中自动打开
    用JAVA操作日期类型
    ORACLE默认用户的问题?
  • 原文地址:https://www.cnblogs.com/BeanHsiang/p/13254860.html
Copyright © 2011-2022 走看看