zoukankan      html  css  js  c++  java
  • java-spark的各种常用算子的写法

        通常写spark的程序用scala比较方便,毕竟spark的源码就是用scala写的。然而,目前java开发者特别多,尤其进行数据对接、上线服务的时候,这时候,就需要掌握一些spark在java中的使用方法了

       一、map

         map在进行数据处理、转换的时候,不能更常用了

         在使用map之前 首先要定义一个转换的函数 格式如下:

       

    Function<String, LabeledPoint> transForm = new Function<String, LabeledPoint>() {//String是某一行的输入类型 LabeledPoint是转换后的输出类型
                @Override
                public LabeledPoint call(String row) throws Exception {//重写call方法
                    String[] rowArr = row.split(",");
                    int rowSize = rowArr.length;
    
                    double[] doubleArr = new double[rowSize-1];
    
                    //除了第一位的lable外 其余的部分解析成double 然后放到数组中
                    for (int i = 1; i < rowSize; i++) {
                        String each = rowArr[i];
                        doubleArr[i] = Double.parseDouble(each);
                    }
    
                    //用刚才得到的数据 转成向量
                    Vector feature = Vectors.dense(doubleArr);
                    double label = Double.parseDouble(rowArr[0]);
                    //构造用于分类训练的数据格式 LabelPoint
                    LabeledPoint point = new LabeledPoint(label, feature);
                    return point;
                }
            };
    

      需要特别注意的是:

          1、call方法的输入应该是转换之前的数据行的类型  返回值应是处理之后的数据行类型

          2、如果转换方法中调用了自定义的类,注意该类名必须实现序列化 比如

    public class TreeEnsemble implements Serializable {
    }
    

      3、转换函数中如果调用了某些类的对象,比如该方法需要调用外部的一个参数,或者数值处理模型(标准化,归一化等),则该对象需要声明是final

          然后就是在合适的时候调用该转换函数了

          

    JavaRDD<LabeledPoint> rdd = oriData.toJavaRDD().map(transForm);
    

      这种方式是需要将普通的rdd转成javaRDD才能使用的,转成javaRDD的这一步操作不耗时,不用担心

       二、filter

        在避免数据出现空值、0等场景中也非常常用,可以满足sql中where的功能

        这里首先也是要定义一个函数,该函数给定数据行 返回布尔值 实际效果是将返回为true的数据保留

    Function<String, Boolean> boolFilter = new Function<String, Boolean>() {//String是某一行的输入类型 Boolean是对应的输出类型 用于判断数据是否保留
                @Override
                public Boolean call(String row) throws Exception {//重写call方法
                    boolean flag = row!=null;
                    return flag;
                }
            };
    

      通常该函数实际使用中需要修改的仅仅是row的类型 也就是数据行的输入类型,和上面的转换函数不同,此call方法的返回值应是固定为Boolean

        然后是调用方式

        

    JavaRDD<LabeledPoint> rdd = oriData.toJavaRDD().filter(boolFilter);
    

      

        三、mapToPair

        该方法和map方法有一些类似,也是对数据进行一些转换。不过此函数输入一行 输出的是一个元组,最常用的方法是用来做交叉验证 或者统计错误率 召回率 计算AUC等等

        同样,需要先定义一个转换函数

    Function<String, Boolean> transformer = new PairFunction<LabeledPoint, Object, Object>() {//LabeledPoint是输入类型 后面的两个Object不要改动
                @Override
                public Tuple2 call(LabeledPoint row) throws Exception {//重写call方法 通常只改动输入参数 输出不要改动
                    double predicton = thismodel.predict(row.features());
                    double label = row.label();
                    return new Tuple2(predicton, label);
                }
            });
    

      关于调用的类、类的对象,要求和之前的一致,类需要实现序列化,类的对象需要声明成final类型

         相应的调用如下:

    JavaPairRDD<Object, Object> predictionsAndLabels = oriData.mapToPair(transformer);
    

      然后对该predictionsAndLabels的使用,计算准确率、召回率、精准率、AUC,接下来的博客中会有,敬请期待

          如有补充,或者质疑,或者有相关问题,请发邮件给我,或者直接回复  邮箱:326543991@qq.com

         

        

     

  • 相关阅读:
    年纪大了,要学会控制自己的欲望
    java为什么要用类型擦除实现泛型?--c++,java,c# 的泛型是如何实现的
    面向对象:类的成员---只是特定(类的)命名空间的全局变量(函数)而已
    人的意志与自然法则—人的意志与人造事物
    所有的思考都有两个目的:建模降熵
    控制论、系统论与熵
    秩序(也常简称为序)是系统的本质特征之一
    控制论:基于全局信息和整体目标、整体规则的系统结构和状态维护
    人类社会的全部认识成果可以概括为三大领域的科学,即自然科学、社会科学和思维科学
    “逻辑”的古希腊词源
  • 原文地址:https://www.cnblogs.com/starwater/p/9195764.html
Copyright © 2011-2022 走看看