数据中台解析Hive SQL过程 - 走看看

zoukankan html css js c++ java

数据中台解析Hive SQL过程
一、数据中台解析SQL的目的：

数据中台需要对外提供数据特征查询的能力，因此中台查找并解析各个平台的sql，找出哪些表中的字段经常被使用，以便沉淀为特征，而我们要做的是找出sql中的数据表及其字段。以海象平台调度任务中的Hive SQL为例，看一下处理一个hive SQL都需要做什么。

二、预处理：

一个sql中会包含很多与查询操作不相关的语句：

1. 注释，包括--和#两种注释；

2. add jar;

3. alter table;

4. create temporary function，定义临时函数;

5 海象中的系统参数;

在预处理阶段，我们通过正则表达式把这些字段全部过滤掉。

三、CTE语法：

hive sql中会经常出现形如with as的CTE表达式，在解析SQL时可能对我们有影响，因此需要把CTE中临时创建的表给屏蔽掉。

抽象语法树：
<dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>2.2.0</version> </dependency>
hive中有解析sql模块的，我们直接引入jar包调用就好。

四、访问者模式：

对于解析SQL来说，访问者模式最大的特点是遍历语法树和解析语法树节点操作分析，符合面向对象中的开闭原则。

如何处理SQL中的子查询？

将QueryNode分割，使得每一个QueryNode下都没有其他的QueryNode。

如何找到字段和表名间的联系？

依靠表别名。
查看全文

相关阅读:
Vector用法。
error LNK2001的解决方法
 指针（详解）
xxx cannot be resolved to a type
springmvc写了方法无法访问
 java lombok包在maven已经配置，但是注解没用
 系统提供的相关intent
Activity小结
 BrocastReceiver入门
 AppWidget入门

原文地址：https://www.cnblogs.com/yujinghui/p/10555253.html

Copyright © 2011-2022 走看看