zoukankan      html  css  js  c++  java
  • 数据中台解析Hive SQL过程

    一、数据中台解析SQL的目的:

    数据中台需要对外提供数据特征查询的能力,因此中台查找并解析各个平台的sql,找出哪些表中的字段经常被使用,以便沉淀为特征,而我们要做的是找出sql中的数据表及其字段。以海象平台调度任务中的Hive SQL为例,看一下处理一个hive SQL都需要做什么。

    二、预处理:

    一个sql中会包含很多与查询操作不相关的语句:

    1. 注释,包括--和#两种注释;

    2. add jar;

    3. alter table;

    4. create temporary function,定义临时函数;

    5 海象中的系统参数;

    在预处理阶段,我们通过正则表达式把这些字段全部过滤掉。

    三、CTE语法:

    hive sql中会经常出现形如with as的CTE表达式,在解析SQL时可能对我们有影响,因此需要把CTE中临时创建的表给屏蔽掉。

    抽象语法树:

    <dependency>
                <groupId>org.apache.hive</groupId>
                <artifactId>hive-exec</artifactId>
                <version>2.2.0</version>
     </dependency>

    hive中有解析sql模块的,我们直接引入jar包调用就好。

    四、访问者模式

    对于解析SQL来说,访问者模式最大的特点是遍历语法树和解析语法树节点操作分析,符合面向对象中的开闭原则。

    如何处理SQL中的子查询?

    将QueryNode分割,使得每一个QueryNode下都没有其他的QueryNode。

    如何找到字段和表名间的联系?

    依靠表别名。

  • 相关阅读:
    质数学习笔记
    一本通 1615:【例 1】序列的第 k 个数
    2019.05.09考试解题报告
    洛谷 P1057 传球游戏
    浅谈逆序对
    Set学习笔记
    洛谷 P1115 最大子段和
    洛谷 P1234 小A的口头禅
    About Her
    洛谷 P1164 小A点菜
  • 原文地址:https://www.cnblogs.com/yujinghui/p/10555253.html
Copyright © 2011-2022 走看看