zoukankan html css js c++ java

Spark ML 之 LR逻辑回归实现排序

一、理论

https://www.jianshu.com/p/114100d0517f

https://www.imooc.com/article/46843

二、代码

1、准备数据

2、数据分成 train和test进行测试：用train的数据训练（fit）出的model带入（transform）test数据

验证label和predict的是否足够精确

3、排序

package com.njbdqn

import org.apache.spark.ml.classification.{LogisticRegression, LogisticRegressionModel}
import org.apache.spark.ml.linalg.Vectors
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._

/**
 * 排序：LR
 */
object LRtest {
  val positive = udf{
    (vc:String)=>{
      vc.replaceAll("\[|\]","").split(",")(1).toDouble
  }}

  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().appName("app").master("local[*]").getOrCreate()
    val data = spark.createDataFrame(Seq(
      ("1","2",1.0, Vectors.dense(0.0, 1.1, 0.1)),
      ("1","2",0.0, Vectors.dense(2.0, 1.0, -1.1)),
      ("1","2",1.0, Vectors.dense(1.0, 2.1, 0.1)),
      ("1","2",0.0, Vectors.dense(2.0, -1.3, 1.1)),
      ("1","2",0.0, Vectors.dense(2.0, 1.0, -1.1)),
      ("1","2",1.0, Vectors.dense(1.0, 2.1, 0.1)),
      ("1","2",1.0, Vectors.dense(2.0, 1.3, 1.1)),
      ("1","2",0.0, Vectors.dense(-2.0, 1.0, -1.1)),
      ("1","2",1.0, Vectors.dense(1.0, 2.1, 0.1)),
      ("1","2",0.0, Vectors.dense(2.0, -1.3, 1.1)),
      ("1","2",1.0, Vectors.dense(2.0, 1.0, -1.1)),
      ("1","2",1.0, Vectors.dense(1.0, 2.1, 0.1)),
      ("1","2",0.0, Vectors.dense(-2.0, 1.3, 1.1)),
      ("1","2",1.0, Vectors.dense(0.0, 1.2, -0.4))
    )).toDF("user","goods","label","features")
      //.show(false)
    val Array(train,test) = data.randomSplit(Array(0.7,0.3))
    // 设置训练模型的超参
    val lr = new LogisticRegression().setMaxIter(10).setRegParam(0.01)
    // 训练模型
    val model = lr.fit(train)
    // 把模型存到HDFS
  //  model.save("hdfs://192.168.56.111:9000/LRmodel")
    // 获取HDFS上的模型
   val model2 = LogisticRegressionModel.load("hdfs://192.168.56.111:9000/LRmodel")
    // 检测模型的准确性
//    val preRes = model.transform(test)
//    preRes.show(false)
    val res = model2.transform(data)
    import spark.implicits._
// 方法一：死办法,不推荐    
// probability:[xxx,xxx]，后面的数据是感兴趣的程度，超过0.5则predict为1
    res.withColumn("pro",$"probability".cast("String"))
        .select($"user",$"goods",positive($"pro").alias("score"))
        .orderBy(desc("score")).show(false)
// 方法二：推荐，模式匹配方法
    res.select("user","goods","probability")
      .rdd.map{case(Row(uid:Double,gid:Double,score:DenseVector))=>(uid,gid,score(1))}
      .toDF("user","goods","score")
      .select($"user",$"goods",row_number().over(wnd).alias("rank"))
      .show(false)
spark.stop()
  }
}

结果：

+----+-----+-------------------+
|user|goods|score |
+----+-----+-------------------+
|1 |2 |0.9473385564891683 |
|1 |2 |0.9473385564891683 |
|1 |2 |0.9473385564891683 |
|1 |2 |0.9473385564891683 |
|1 |2 |0.9202855138287962 |
|1 |2 |0.5337766179253915 |
|1 |2 |0.5337766179253915 |
|1 |2 |0.5337766179253915 |
|1 |2 |0.5081492680443979 |
|1 |2 |0.5014483932183084 |
|1 |2 |0.4713578993198038 |
|1 |2 |0.09069927610736443|
|1 |2 |0.03241657419240436|
|1 |2 |0.03241657419240436|
+----+-----+-------------------+

查看全文

相关阅读:
SQL PASS 北京2013年6月15日活动照片集
 XML约束文档DTD
内存管理之虚拟页式分配
 设备驱动中异步通知编程
 王家林云计算分布式大数据Hadoop实战高手之路第七讲Hadoop图文训练课程：通过HDFS的心跳来测试replication具体的工作机制和流程
 安装配置netanalyzer/netsnmp3.5.7_rc1
理解Java对象序列化——Serializable接口
 世界500强高频逻辑推理智力面试题（二）
2column left navigation 中遇到的问题
 Visual Studio 2010 无法打开源文件 "iostream.h"

原文地址：https://www.cnblogs.com/sabertobih/p/13874338.html