zoukankan      html  css  js  c++  java
  • hive HQL数据库操作笔记01

    分区(partition by)
            目的:加快数据查询:
            实现:依据某几个数据属性,设置分区;
                  eg:依据时间和国家,9.1&CN;9.1&US;9.2 ...;
            形式:层级目录;
            实践:      

    分桶 (clustered by)
            目的:更细粒度的划分数据,加快数据查询;
            实现:根据某一列属性(表本身属性),取每一条数哈希值,分到一个桶内;
            用于:数据抽样;加快表链接(join)
            实践:?      

    查询操作:
            语句;
                链接join;
                排序order by;
            笛卡儿积?

            列转行&行转列:

            窗口函数:?
                窗口就是分析函数分析时要处理的数据范围


    函数:
          内置:
              ........
          自定义函数UDF:
              命令行实现;
              编程实现(hive API);

    ...................................................
  • 相关阅读:
    Winfrom Chart实现数据统计
    Python--面向过程编程
    老板喜欢什么样的员工
    python--装饰器
    python--浅拷贝和深拷贝
    Python基础-logging模块
    Python基础-subprocess模块
    Python基础-hashlib模块
    Python基础-ConfigParser模块
    Python基础-XML模块
  • 原文地址:https://www.cnblogs.com/floakss/p/11470902.html
Copyright © 2011-2022 走看看