zoukankan      html  css  js  c++  java
  • Spark DataSet

    1.DataSet相关概念

    Dataset是一个分布式的数据集。Dataset是Spark 1.6开始新引入的一个接口,它结合了RDD API的很多优点(包括强类型,支持lambda表达式等),以及Spark SQL的优点(优化后的执行引擎)。Dataset可以通过JVM对象来构造,然后通过transformation类算子(map,flatMap,filter等)来进行操作。Scala和Java的API中支持Dataset,但是Python不支持Dataset API。不过因为Python语言本身的天然动态特性,Dataset API的不少feature本身就已经具备了(比如可以通过row.columnName来直接获取某一行的某个字段)。R语言的情况跟Python也很类似。

    Dataframe就是按列组织的Dataset。在逻辑概念上,可以大概认为Dataframe等同于关系型数据库中的表,或者是Python/R语言中的data frame,但是在底层做了大量的优化。Dataframe可以通过很多方式来构造:比如结构化的数据文件,Hive表,数据库,已有的RDD。Scala,Java,Python,R等语言都支持Dataframe。在Scala API中,Dataframe就是Dataset[Row]的类型别名。在Java中,需要使用Dataset<Row>来代表一个Dataframe。

    2.DataSet操作

    • collect:将分布式存储在集群上的分布式数据集(比如dataset),中的所有数据都获取到driver端来
    • first:获取数据集中的第一条数据
    • persist()/cache():持久化,如果要对一个dataset重复计算两次的话,那么建议先对这个dataset进行持久化再进行操作,避免重复计算
    • createTempView("employee")
    • explain():答应执行计划,dataframe/dataset,比如执行了一个sql语句获取的dataframe,实际上内部包含一个logical plan,逻辑执行计划,设计执行的时候,首先会通过底层的catalyst optimizer,生成物理执行计划,比如说会做一些优化,比如push filter,还会通过whole-stage code generation技术去自动化生成代码,提升执行性能
    • DataSet.write.save:将数据保存到指定目录
    • printSchema():打印结构
    • 将DataFrame转化为DataSet
     
    case class Employee(name: String, age: Long, depId: Long, gender: String, salary: Long)
    val employeeDS=employee.as[Employee]
    • coalesce和repartition:都是用来重新定义分区的,区别在于:coalesce,只能用于减少分区数量,而且可以选择不发生shuffle,repartiton,可以增加分区,也可以减少分区,必须会发生shuffle,相当于是进行了一次重分区操作
    • distinct和dropDuplicates:都是用来进行去重的,distinct,是根据每一条数据,进行完整内容的比对和去重, dropDuplicates,可以根据指定的字段进行去重
    1 val employeeDistinct=employeeDS.distinct()
    2  employeeDistinct.show()
    3  val employeeDropDup=employeeDS.dropDuplicates(Seq("name"))
    4  employeeDropDup.show()
    • except:获取在当前dataset中有,但是在另外一个dataset中没有的元素
    • filter:根据我们自己的逻辑,如果返回true,那么就保留该元素,否则就过滤掉该元素
    • intersect:获取两个数据集的交集
    employeeDS.except(employeeDS2).show()
    employeeDS.intersect(employeeDS2).show()
    employeeDS.filter(employee=>employee.age>35).show()
    • map:将数据集中的每条数据都做一个映射,返回一条新数据
    • flatMap:数据集中的每条数据都可以返回多条数据
    • mapPartitions:一次性对一个partition中的数据进行处理
     1 employeeDS.map(employee=>(
     2   employee.name,employee.salary,employee.salary+1000
     3 )).show()
     4 employeeDS.flatMap(employee=>Seq(
     5     (employee.name,employee.salary,employee.salary+1000),
     6     (employee.name,employee.salary,employee.salary+2000)
     7     )).show()
     8 employeeDS.mapPartitions(employee=>{
     9   val result=scala.collection.mutable.ArrayBuffer[(String,Long,Long)]()
    10   while(employee.hasNext){
    11     var temp=employee.next()
    12     result += ((temp.name,temp.salary,temp.salary+5000))
    13   }
    14   result.iterator
    15 }).show()
    • joinWith,两个DataSet关联,指定关联条件
    1 employee.joinWith(department, $"deptId" === $"id").show()
    • sort:排序
    1 employeeDS.sort($"salary".desc).show()
    • randomSplit/sample
    1 val employeeDSArr=employeeDS.randomSplit(Array(3,10,20))
    2 employeeDSArr.foreach(ds=>ds.show())
    3 employeeDS.sample(false, 0.3).show()
    • groupBy/agg/avg/sum/max/min/count/countDistinct
    1 employee
    2     .join(department, $"depId" === $"id")  
    3     .groupBy(department("name"))
    4     .agg(avg(employee("salary")), sum(employee("salary")), max(employee("salary")), min(employee("salary")), count(employee("name")), countDistinct(employee("name")))
    5     .show()
    • collect_list/collect_set:collect_list就是将一个分组内,指定字段的值都收集到一起,不去重,collect_set,同上,但是唯一的区别是,会去重
    1 /**
    2 [1,WrappedArray(Leo, Jack),WrappedArray(Jack, Leo)]
    3 [3,WrappedArray(Tom, Kattie),WrappedArray(Tom, Kattie)]
    4 [2,WrappedArray(Marry, Jen, Jen),WrappedArray(Marry, Jen)]
    5 */
    6      employee.groupBy(employee("depId"))
    7      .agg(collect_list(employee("name")),collect_set(employee("name")))
    8      .collect()
    9      .foreach(println)


    链接:https://www.jianshu.com/p/f017716187b3

    当你的才华还撑不起你的野心时,就应该静下心来学习! Think big!Look forward!
  • 相关阅读:
    计算几何
    HDU 4267
    HDU 4277
    NYOJ 123(插线问点)
    Set
    HDU 1792
    从文本文件读取数据到用vector实现的二维数组中
    为什么计算机采用二进制而不是八进制或者十六进制
    Google C++编程风格指南1
    编程中的命名设计
  • 原文地址:https://www.cnblogs.com/iber/p/12984682.html
Copyright © 2011-2022 走看看