zoukankan      html  css  js  c++  java
  • 学习Spark2.0中的Structured Streaming(一)

    转载自:http://lxw1234.com/archives/2016/10/772.htm

    Spark2.0新增了Structured Streaming,它是基于SparkSQL构建的可扩展和容错的流式数据处理引擎,使得实时流式数据计算可以和离线计算采用相同的处理方式(DataFrame&SQL)。Structured Streaming顾名思义,它将数据源和计算结果都映射成一张”结构化”的表,在计算的时候以结构化的方式去操作数据流,大大方便和提高了数据开发的效率。

    Spark2.0之前,流式计算通过Spark Streaming进行:

    spark

    使用Spark Streaming每次只能消费当前批次内的数据,当然可以通过window操作,消费过去一段时间(多个批次)内的数据。举个简例子,需要每隔10秒,统计当前小时的PV和UV,在数据量特别大的情况下,使用window操作并不是很好的选择,通常是借助其它如Redis、HBase等完成数据统计。

    Structured Streaming将数据源和计算结果都看做是无限大的表,数据源中每个批次的数据,经过计算,都添加到结果表中作为行。

    spark

    先试试官方给的例子,在本地启动NetCat: nc -lk 9999

    在另一个会话中:

    cd $SPARK_HOME/bin
    ./spark-shell(以local模式进入spark-shell命令行),运行下面的程序:
        import org.apache.spark.sql.functions._
        import org.apache.spark.sql.SparkSession
        val spark = SparkSession.builder.appName("StructuredNetworkWordCount").getOrCreate()
         
        import spark.implicits._
        val lines = spark.readStream.format("socket").option("host", "localhost").option("port", 9999).load()
         
        val words = lines.as[String].flatMap(_.split(" "))
        val wordCounts = words.groupBy("value").count()
         
        val query = wordCounts.writeStream.outputMode("complete").format("console").start()
        query.awaitTermination()

    在NetCat会话中输入”apache spark”,spark-shell中显示:

    spark

    在NetCat会话中分两次再输入”apache hadoop”,”lxw1234.com hadoop spark”, spark-shell中显示:

    spark

    可以看到,每个Batch显示的结果,都是完整的WordCount统计结果,这便是结算结果输出中的完整模式(Complete Mode)。

    spark

    关于结算结果的输出,有三种模式:

    1. Complete Mode:输出最新的完整的结果表数据。
    2. Append Mode:只输出结果表中本批次新增的数据,其实也就是本批次中的数据;
    3. Update Mode(暂不支持):只输出结果表中被本批次修改的数据;

    这些Output,可以直接通过连接器(如MySQL JDBC、HBase API等)写入外部存储系统。

    再看看Append模式,
    注意:Append模式不支持基于数据流上的聚合操作(Append output mode not supported when there are streaming aggregations on streaming DataFrames/DataSets);

        import org.apache.spark.sql.functions._
        import org.apache.spark.sql.SparkSession
        val spark = SparkSession.builder.appName("StructuredNetworkWordCount").getOrCreate()
         
        import spark.implicits._
        val lines = spark.readStream.format("socket").option("host", "localhost").option("port", 9999).load()
         
        val words = lines.as[String].flatMap(_.split(" "))
         
        val query = words.writeStream.outputMode("append").format("console").start()
        query.awaitTermination()
         

    在NetCat中分三次输入:
    apache spark
    apache hadoop
    lxw1234.com hadoop spark

    spark-shell中显示:

    spark

    只有当前批次的数据。

  • 相关阅读:
    php tp6 踩坑(1)使用cookie助手函数 接口报500错误,但却没用错误信息问题
    php 杂项(2)--md5加密
    php tp6学习笔记(100) 正则表达式
    php 杂项(1)--单引号和双引号的区别
    pins和ports区别
    analyze&elaborate
    编译前后保存database
    DC层次化设计
    synthesis建立和保存
    DC综合过程和目标
  • 原文地址:https://www.cnblogs.com/itboys/p/6183968.html
Copyright © 2011-2022 走看看