[DB] Spark SQL - 走看看

zoukankan html css js c++ java

[DB] Spark SQL
概述
- 类似Hive、Pig
- 基于Spark（内存）
- 集成在Spark中，不需单独安装
- 提供统一的数据访问方式
- 结构化的数据类型：JDBC、JSON、Hive、Parquet（Saprk SQL 默认数据源）
- 兼容Hive
- 支持标准的数据连接：JDBC、ODBC
- 核心概念：表（DataFrame）= 结构（Schema） + 数据（RDD）
创建DataFrame
- 使用 case class 样本类
  
  定义表的 schema
  
  导入HDFS的dept.csv作为数据
- 使用 Spark Session
  
  包括 Spark Context、SQL Context、Streaming Context
  
  2.0后引入的统一访问接口，可访问所有spark组件
  
  使用StructType创建schema
- 读取带格式文件
  
  Json
操作DataFrame
- DSL语句
- SQL语句
操作DataSet
- DataFrame缺乏编译时类型安全
Spark SQL 视图
- 虚表，不存储数据
- 普通视图：本地视图，只在当前session中有效
- 全局视图：在不同session中都有效，把全局视图创建命名空间，global_temp
数据源
- load() 和 save()
- Parquet文件
  
  列式存储文件，Spark SQL默认数据源
  
  把其它文件转为Parquet文件
  
  支持Schema的合并：项目开始的时候，表（schema）很简单，逐步向表中增加新的列
- Json文件
  
  val testResult = spark.read.json("/usr/local/tmp_files/emp.json")
- JDBC
- Hive
性能优化
- 缓存方式
  
  在内存中缓存数据
  
  性能优化参数　　　　
IDE中开发
- 关闭log4j
参考

官网

http://spark.apache.org/sql/
查看全文

相关阅读:
git的优秀教程
 线性表的顺序存储结构和链式存储结构的比较
 python3基础知识学习记录
 thinkPHP为什么设置一个单入口文件？
2017年读过的专业书
 DFS（深度优先搜索）模板
 HDOJ2553-N皇后问题(DFS)
POJ(2784)Buy or Build
并查集分类：并查集 2015-07-09 16:32 0人阅读评论(0) 收藏
 Number of Containers(数学）分类：数学 2015-07-07 23:42 1人阅读评论(0) 收藏

原文地址：https://www.cnblogs.com/cxc1357/p/13096982.html