zoukankan html css js c++ java

spark 三种数据集的关系（二）

一个Dataset是一个分布式的数据集，而且它是一个新的接口，这个新的接口是在Spark1.6版本里面才被添加进来的，所以要注意DataFrame是先出来的，然后在1.6版本才出现的Dataset，提供了哪些优点呢？比如强类型，支持lambda表达式，还有还提供了sparksql执行引擎的一些优化，DataFrame里面大部分东西在Dataset里面都是能用的，Dataset它能够通过哪些方式构建？一个是jvm对象，还有一些函数表达式比如map、flatMap、filter等等。这个Dataset可以使用在java和scala语言里面，注意python暂时还不能支持Dataset的API。

1.关于类型方面：

DataSet是带有类型的（typed），例：DataSet<Persono>。取得每条数据某个值时，使用类似person.getName()这样的API，可以保证类型安全。
而DataFrame是无类型的，是以列名来作处理的，所以它的定义为DataSet<Row>。取得每条数据某个值时，可能要使用row.getString(0)或col("department")这样的方式来取得，无法知道某个值的具体的数据类型。

// Load a text file and interpret each line as a java.lang.String
val ds = sqlContext.read.text("/home/spark/1.6/lines").as[String]

//dataframe
val result = ds
  .flatMap(_.split(" "))               // Split on whitespace
  .filter(_ != "")                     // Filter empty words
  .toDF()                              // Convert to DataFrame to perform aggregation / sorting
  .groupBy($"value")                   // Count number of occurences of each word
  .agg(count("*") as "numOccurances")
  .orderBy($"numOccurances" desc)      // Show most common words first

//DataSet,完全使用scala编程，不要切换到DataFrame
 
val wordCount = 
  ds.flatMap(_.split(" "))
    .filter(_ != "")
    .groupBy(_.toLowerCase()) // Instead of grouping on a column expression (i.e. $"value") we pass a lambda function
    .count()

DataFrame和DataSet可以相互转化，df.as[ElementType]这样可以把DataFrame转化为DataSet，ds.toDF()这样可以把DataSet转化为DataFrame。

2.关于schema:

DataFrame带有schema，而DataSet没有schema。schema定义了每行数据的“数据结构”，就像关系型数据库中的“列”，schema指定了某个DataFrame有多少列。

3.数据类型检查

Dataset可以认为是DataFrame的一个特例，主要区别是Dataset每一个record存储的是一个强类型值而不是一个Row，DataSet可以在编译时检查类型。

4.新的概念Encoder

DataSet结合了RDD和DataFrame的优点, 并带来的一个新的概念Encoder
当序列化数据时, Encoder产生字节码与off-heap进行交互, 能够达到按需访问数据的效果, 而不用反序列化整个对象. Spark还没有提供自定义Encoder的API, 但是未来会加入.

查看全文

相关阅读:
为什么我的Android SDK Manager中只显示已安装的package?
解决Android Studio Gradle Build特别慢的问题
 一款不错的取色器
 Android Studio没有导包快捷键怎么办
 Android Studio中有没有类似于Eclipse中的ctrl+2+L的快捷键? Android Studio快捷键之代码提示
 安卓动画总结【非原创】
ButterKnife-5.1.2.jar(较低版本的ButterKnife)使用方法
 【转】调用getActionBar()报Call requires API level 11 (current min is 8): android.app.Activity#getActionBar
spring容器加载完毕做一件事情（利用ContextRefreshedEvent事件）转
 详解 Spring 3.0 基于 Annotation 的依赖注入实现(转)

原文地址：https://www.cnblogs.com/wqbin/p/11741596.html