041 SparkSql的回顾与复习 - 走看看

zoukankan html css js c++ java

041 SparkSql的回顾与复习

　　在前面学完了SparkCore后，又学了SparkSQL，在继续加深学习之前，一定的复习还是很重要的。这里大体写一下，加深自己对SparlSQL的理解。

1.SparkSQL

　　首先是SaprkSQL与HIve的继承

　　然后是ThriftServer服务（JDBC/ODBC）

　　SparlSQL开发语言：

　　　　HQL：表需要存在（可以是HIve表存在，也可以是临时表存在--这样需要DateFrame注册）

　　　　DSL：DateFrame相关的API（select，groupby。。。）

　　DateFrame：SparkSQL的抽象

　　　　RDD+Schema

　　　　内部是一个逻辑计划

　　　　编程模式：read与writer编程，这是一个链式编程

　　SparkSQL默认支持的数据源

　　　　hive

　　　　rdbms

　　　　parquet

　　　　json

　　多数据源的数据可以进行join操作

　　　　注册成两张临时表，然后就可以进行join了

　　可以替换Sqoop的工作，做数据同步的事情

　　　　hive，hdfs（text，parquet，avro，orc），hbase，RDBMS，redis，MongoDB

　　

查看全文

相关阅读:
面试数据分析岗，怎么提升一倍成功率？让过来人给你支支招
 SQL执行效率提升几万倍的操作详解！
记一次因Redis使用不当导致应用卡死过程
 运筹学那些事，专科学生学习运筹学之运输问题，No.5
如何在C++中嵌入JAVA
国际站中国区，孟买上Redis 4.0 集群版
 国际站中国区，孟买上Redis 4.0 集群版
 国际站中国区，孟买上Redis 4.0 集群版
 国际站中国区，孟买上Redis 4.0 集群版
 attachEvent与addEventlistener兼容性

原文地址：https://www.cnblogs.com/juncaoit/p/9357544.html

Copyright © 2011-2022 走看看