zoukankan      html  css  js  c++  java
  • 数据中台解析Hive SQL过程

    一、数据中台解析SQL的目的:

    数据中台需要对外提供数据特征查询的能力,因此中台查找并解析各个平台的sql,找出哪些表中的字段经常被使用,以便沉淀为特征,而我们要做的是找出sql中的数据表及其字段。以海象平台调度任务中的Hive SQL为例,看一下处理一个hive SQL都需要做什么。

    二、预处理:

    一个sql中会包含很多与查询操作不相关的语句:

    1. 注释,包括--和#两种注释;

    2. add jar;

    3. alter table;

    4. create temporary function,定义临时函数;

    5 海象中的系统参数;

    在预处理阶段,我们通过正则表达式把这些字段全部过滤掉。

    三、CTE语法:

    hive sql中会经常出现形如with as的CTE表达式,在解析SQL时可能对我们有影响,因此需要把CTE中临时创建的表给屏蔽掉。

    抽象语法树:

    <dependency>
                <groupId>org.apache.hive</groupId>
                <artifactId>hive-exec</artifactId>
                <version>2.2.0</version>
     </dependency>

    hive中有解析sql模块的,我们直接引入jar包调用就好。

    四、访问者模式

    对于解析SQL来说,访问者模式最大的特点是遍历语法树和解析语法树节点操作分析,符合面向对象中的开闭原则。

    如何处理SQL中的子查询?

    将QueryNode分割,使得每一个QueryNode下都没有其他的QueryNode。

    如何找到字段和表名间的联系?

    依靠表别名。

  • 相关阅读:
    jquery对标签属性操作
    将RichTextBox的内容直接写入数据库:
    zendstdio的智能提示功能
    LINQ操作数组(交集,并集,差集,最值,平均,去重复)
    包含的语句
    网站后台弱口令搜集(转自老白)
    委托之异步
    C# 操作超时正常还是错
    cookie转coontoin
    Qt编写自定义控件17-按钮进度条
  • 原文地址:https://www.cnblogs.com/yujinghui/p/10555253.html
Copyright © 2011-2022 走看看