zoukankan      html  css  js  c++  java
  • 数据中台解析Hive SQL过程

    一、数据中台解析SQL的目的:

    数据中台需要对外提供数据特征查询的能力,因此中台查找并解析各个平台的sql,找出哪些表中的字段经常被使用,以便沉淀为特征,而我们要做的是找出sql中的数据表及其字段。以海象平台调度任务中的Hive SQL为例,看一下处理一个hive SQL都需要做什么。

    二、预处理:

    一个sql中会包含很多与查询操作不相关的语句:

    1. 注释,包括--和#两种注释;

    2. add jar;

    3. alter table;

    4. create temporary function,定义临时函数;

    5 海象中的系统参数;

    在预处理阶段,我们通过正则表达式把这些字段全部过滤掉。

    三、CTE语法:

    hive sql中会经常出现形如with as的CTE表达式,在解析SQL时可能对我们有影响,因此需要把CTE中临时创建的表给屏蔽掉。

    抽象语法树:

    <dependency>
                <groupId>org.apache.hive</groupId>
                <artifactId>hive-exec</artifactId>
                <version>2.2.0</version>
     </dependency>

    hive中有解析sql模块的,我们直接引入jar包调用就好。

    四、访问者模式

    对于解析SQL来说,访问者模式最大的特点是遍历语法树和解析语法树节点操作分析,符合面向对象中的开闭原则。

    如何处理SQL中的子查询?

    将QueryNode分割,使得每一个QueryNode下都没有其他的QueryNode。

    如何找到字段和表名间的联系?

    依靠表别名。

  • 相关阅读:
    linux解压 tar命令
    kernel部分数据结构列表二(超级块)
    Linux QQ 的安装
    怎么把uclinux下载到EPCS中
    CentOS 5 上安装git
    【转】Linux下使用Evolution收发Email
    几个采样代码的对比
    NIOS II 安装uclinux的硬件要求
    S3C2440 Timer初始化方法
    基于NIOS II的液晶显示设计——ucGUI移植
  • 原文地址:https://www.cnblogs.com/yujinghui/p/10555253.html
Copyright © 2011-2022 走看看