zoukankan      html  css  js  c++  java
  • Spark(五)【RDD的序列化】

    1.闭包检查

    ​ 从计算的角度, 算子以外的代码都是在Driver端执行, 算子里面的代码都是在Executor端执行。那么在scala的函数式编程中,就会导致算子内经常会用到算子外的数据,这样就形成了闭包的效果,如果使用的算子外的数据无法序列化,就意味着无法传值给Executor端执行,就会发生错误,所以需要在执行任务计算前,检测闭包内的对象是否可以进行序列化,这个操作我们称之为闭包检测。

    如图

    2.序列化方法和属性

    从计算的角度, 算子以外的代码都是在Driver端执行, 算子里面的代码都是在Executor端执行

    object serializable02_function {
    
        def main(args: Array[String]): Unit = {
            val conf: SparkConf = new SparkConf().setAppName("SparkCoreTest").setMaster("local[*]")
            val sc: SparkContext = new SparkContext(conf)
    
            val rdd: RDD[String] = sc.makeRDD(Array("hello world", "hello spark", "hive", "atguigu"))
    
            //3.1创建一个Search对象
            val search = new Search("hello")
    
            //3.2 函数传递,打印:ERROR Task not serializable
            search.getMatch1(rdd).collect().foreach(println)
    
            //3.3 属性传递,打印:ERROR Task not serializable
            search.getMatch2(rdd).collect().foreach(println)
    
            //4.关闭连接
            sc.stop()
        }
    }
    
    class Search(query:String) extends Serializable {
    
        def isMatch(s: String): Boolean = {
            s.contains(query)
        }
    
        // 函数序列化案例
        def getMatch1 (rdd: RDD[String]): RDD[String] = {
            //rdd.filter(this.isMatch)
            rdd.filter(isMatch)//rdd引用了对象的成员方法产生闭包
        }
    
        // 属性序列化案例
        def getMatch2(rdd: RDD[String]): RDD[String] = {
            //rdd.filter(x => x.contains(this.query))
            rdd.filter(x => x.contains(query))//rdd引用了对象的成员属性产生闭包     
            /*解决方案:将成员属性值赋值给Int局部变量,基本类型已经实现了序列化。*/
            //val q = query
            //rdd.filter(x => x.contains(q))
        }
    }
    
    

    3.序列化异常解决方案

    ①extends Serializable:类实现序列化

    ②使用case class:使用样例类,样例类默认实现序列化

    ③不引用对象的成员方法和变量,可以使用局部变量保存属性的值、 使用函数或匿名函数!

    4.Kryo序列化框架

    ​ Java的序列化能够序列化任何的类。但是比较重(字节多),序列化后,对象的提交也比较大。Spark出于性能的考虑,Spark2.0开始支持另外一种Kryo序列化机制。Kryo速度是Serializable的10倍。当RDD在Shuffle数据的时候,简单数据类型、数组和字符串类型已经在Spark内部使用Kryo来序列化。

    注意:即使使用Kryo序列化,也要继承Serializable接口。

    使用方式

    将需要使用Kryo序列化的对象在conf中注册,即可使用

    val conf: SparkConf = new SparkConf()
                    .setAppName("SerDemo")
                    .setMaster("local[*]")
                    // 替换默认的序列化机制
                    .set("spark.serializer", "org.apache.spark.serializer.KryoSerializer")
                    // 注册需要使用 kryo 序列化的自定义类
                    .registerKryoClasses(Array(classOf[Searcher]))
            val sc = new SparkContext(conf)
    
    
  • 相关阅读:
    我从来没有想要去
    微信公众号开发系列-发展模式,创建自己的自定义菜单
    iOS6之后 NSAttributedString 福利
    iOS 面试题:OC标题的基本概念<延续>
    逻辑、认识论和本体论“三统一”
    C++中的头文件和源文件
    extern与头文件(*.h)的区别和联系
    Predicate Format String Syntax 与字面量
    编码、格式与网络通信
    充分条件和必要条件的联系和区别是什么
  • 原文地址:https://www.cnblogs.com/wh984763176/p/13433343.html
Copyright © 2011-2022 走看看