SparkSQL架构

zoukankan html css js c++ java

SparkSQL架构

Spark SQL运行架构

Spark SQL由Core、Catalyst、Hive和Hive-Thriftserver组成

　　core：负责处理数据的输入/输出，从不同的数据源获取数据(如RDD、Parquet文件和json文件等)，然后将查询结果输出成DataFrame

　　Catalyst：负责处理查询语句的整个过程，包括解析、绑定、优化、物理计划等，是最重要的部分

　　Hive：负责对hive数据的处理

　　Hive-thriftserver：提供CLI和JDBC/ODBC接口

Spark SQL的架构：

　　(1)、将SQL语句通过词法和语法解析生成未绑定的逻辑计划(包含Unresolved Relation、Unresolved Function和Unresolved Attribute)，然后在后续步骤中使用不同的Rule应用到该逻辑计划上。

　　(2)、Analyzer使用Analysis Rules，配合数据元数据(如SessionCatalog或Hive Metastore)，完善未绑定的逻辑计划的属性而转换成已绑定的逻辑计划。

　　　　具体的流程是：先实例化一个Simple Analyzer，然后遍历预先定义好的Batch，通过父类的Rule Exector的执行方法运行Batch里面的Rules，每个Rule会对未绑定的逻辑计划进行处理，有些可以通过一次解析处理，有些需要多次迭代，迭代至FixedPoint次数迭代或达到前后两次的树结构没有变化时停止。

　　(3)、Optimizer使用Optimization Rules，将绑定的逻辑计划进行合并、列裁剪、过滤器下推等优化工作后生成优化的逻辑计划。

　　(4)、Planner使用Planning Strategies，对优化的逻辑计划进行转换(Transform)生成可以执行的逻辑计划。根据过去的性能统计数据，选择最佳的物理执行计划CostModel，最后可以执行的物理计划树，即得到SparkPlan。

　　(5)、在最终真正执行物理执行计划前，还要进行preparations规则处理，最后调用SparkPlan的execute执行计算RDD。

　　

查看全文

相关阅读:
第四节：前端自动化准备和详细配置(NVM、NPM/CNPM、NodeJs、NRM、WebPack、Gulp/Grunt、Git/SVN)
第二十三节: EF性能篇(三)之基于开源组件 Z.EntityFrameWork.Plus.EF6解决EF性能问题
 第三节：一些指令总结(Nuget、)
第十七节：易混淆的概念(静态和非静态、拆箱和装箱)
Java使用Log4记录日志
 Java读取xml
C# int.ToString() 常用参数说明
 WebAPI获取客户端请求数据
 Zend Studio获取永久使用权
 template.js 模版内调用外部JS方法

原文地址：https://www.cnblogs.com/liuzhongfeng/p/7017178.html

Spark SQL运行架构