039 DataFrame的理解 - 走看看

zoukankan html css js c++ java

039 DataFrame的理解

1.构成

　　由RDD+Schema构成
　　　　RDD: DataFrame中的数据 ===> df.rdd
　　　　Schema： RDD中数据的结构 ===> df.schema

　　　　df是dataFrame。

2.官网

　　

　　

3.DataFrame的本质　　

　　内部实质上就是一个逻辑执行计划
　　Catalyst模块负责逻辑执行计划
　　逻辑计划 -> 分析逻辑计划 -> 优化逻辑计划 -> 产生物理计划(多个) -> 判断物理计划的执行成本 -> 选择一个最优物理计划SparkCore代码生成 -> SparkCore代码执行
　　题外：Spark2.x之前的版本不支持逻辑计划产生的修改
　　Spark2.x支持用户自定义HQL逻辑计划产生

　　

4.DataFrame的数据保存

　　第一种: 将Dataframe转换为RDD，RDD数据保存
　　第二种: 直接通过DataFrame的write属性将数据写出(有限制，必须有定义类实现，默认情况：SparkSQL只支持parquet、json、jdbc...)

5.创建DataFrame

　　val df = sqlContext.# ：这个是使用各种api，例如sql，然后返回dataFrame。
　　val df = sqlContext.read.#

查看全文

相关阅读:
TypeScript完全解读(26课时)_7.ES6精讲
 Flutter实战视频-移动电商-66.会员中心_编写ListTile通用方法
 Residual Networks <2015 ICCV, ImageNet 图像分类Top1>
Coursera《machine learning》--（14）数据降维
 C# webbrowser遍历网页元素
 查询某表空间被哪些用户所使用
 C 语言运算符优先级（记忆口诀）
建立简单的哈希表
 【LeetCode-面试算法经典-Java实现】【168-Excel Sheet Column Title（Excell列标题）】
计算随意无序字符串中的最大有序串

原文地址：https://www.cnblogs.com/juncaoit/p/6776458.html

Copyright © 2011-2022 走看看