zoukankan html css js c++ java

Spark Imputer 归因估算器补全缺失值

1、概念

Imputer估计器使用缺失值所在列的平均值或中位数来完成数据集中的缺失值。输入列应为DoubleType或FloatType。

当前，Imputer不支持分类特征，并且可能为包含分类特征的列创建不正确的值。 

Imputer可以通过.setMissingValue（custom_value）插入“ NaN”以外的自定义值。例如，.setMissingValue（0）将重算所有出现的（0）。

请注意，输入列中的所有空值都被视为丢失，因此也会被估算

2、code

package com.home.spark.ml

import org.apache.spark.SparkConf
import org.apache.spark.ml.feature.Imputer
import org.apache.spark.sql.SparkSession

/**
  * @Author: xu.dm
  * @Date: 2020/1/18 11:46
  * @Version: 1.0
  * @Description: 实验性的功能
  * 用于使用缺失值所在列的平均值或中位数来完成缺失值的归因估算器。 输入列应为DoubleType或FloatType。
  * 当前，Imputer不支持分类功能（SPARK-15041），并且可能为分类功能创建了错误的值。
  * 注意，均值/中值是在滤除缺失值之后计算的。
  * 输入列中的所有Null值都被视为丢失，因此也会被估算。 为了计算中位数，使用DataFrameStatFunctions.approxQuantile的相对误差为0.001。
  **/
object Ex_Imputer {
  def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf(true).setMaster("local[2]").setAppName("spark ml")
    val spark = SparkSession.builder().config(conf).getOrCreate()

    val df = spark.createDataFrame(Seq(
      (1.0, Double.NaN),
      (2.0, Double.NaN),
      (Double.NaN, 3.0),
      (4.0, 4.0),
      (5.0, 5.0)
    )).toDF("a", "b")

    val imputer = new Imputer()
      .setInputCols(Array("a", "b"))
      .setOutputCols(Array("out_a", "out_b"))
      .setMissingValue(Double.NaN)
      .setStrategy()

    val model = imputer.fit(df)
    model.transform(df).show()

    spark.stop()
  }
}

+---+---+-----+-----+
|  a|  b|out_a|out_b|
+---+---+-----+-----+
|1.0|NaN|  1.0|  4.0|
|2.0|NaN|  2.0|  4.0|
|NaN|3.0|  3.0|  3.0|
|4.0|4.0|  4.0|  4.0|
|5.0|5.0|  5.0|  5.0|
+---+---+-----+-----+

查看全文

相关阅读:
Java基础之多线程没那么复杂！
高性能Java RPC框架Dubbo与zookeeper的使用
 Java 学习之集合类（Collections）
Java中List与数组互相转化
 AOJ-542-Window/POJ-2823-Window
HDU-1074-Doing Homework
HDU-5365-Run
HDU-5366-The mook jong
HDU-5391-Zball in Tina Town
AOJ-351-求最值之差

原文地址：https://www.cnblogs.com/asker009/p/12208916.html

Spark Imputer 归因估算器 补全缺失值

Spark Imputer 归因估算器补全缺失值