zoukankan      html  css  js  c++  java
  • Hive 知识盲点

    1. 元数据配置

    配置属性 javax.jdo.option.ConnectionURL, javax.jdo.option.ConnectionDriverName 等


    2. 集合数据类型

    STRUCT:

    MAP:

    ARRAY:


    3.分割符

    分行

    01  分列

    02  分隔ARRAY、STRUCT、MAP

    03  分隔MAP


    4. 创建数据库,指定位置

    create database  financials  location  '/my/preferred/directory'



    5. 创建表:配置参数

    也可以配置 location 


    6. 外部表

    create external table 。。。。。。

    外部表不能真正删除这些数据,只修改元数据


    7. 分区表

    partitioned by 

    会为每个分区配置不同的文件夹


    8. 外部分区表

    外部+分区


    9. 自定义表存储格式

    定义各种分割符


    10. 增删改表分区

    ALTER  。。。 ADD 。。。 PARTITION

    ALTER  。。。 DRP 。。。 PARTITION

    ALTER  。。。 PARTITION。。。。SET


    11. 装载数据

    本地:LOAD DATA LOCAL PATH “。。。。” 

    HDFS: LOAD DATA PATH “。。。。” 


    12. 动态分区插入

    INSERT  OVERWRITE TABLE tableName PARTITION (country='cn', state)  SELECT 。。。。。。


    13. 导出数据

    INSERT OVERWRITE LOCAL DIRECTORY   ‘/tmp/data’  SELECT 。。。


    14. 正则表达式匹配列

    select  symbol,  'price.*'   from stocks


    15. 表生成函数

    explode, inline, json_tuple, parse_url_tuple, stack 等

    特别的,hive也有 正则表达式提取函数: regexp_extract, regexp_replace 等函数


    16. CASE...WHEN

    类似IF语句


    17. 避免MapReduce

    配置自动启用本地模式


    18. RLIKE 正则表达式的LIKE

    用法与like一样


    19. JOIN 优化

    小表在前,大表在后。Hive尝试将前面的表缓存起来,与最后的表连接。


    20. 左半开连接 LEFT SEMI-JOIN

    结果与内连接一样,但是效率高:对于左表中一条记录,在右边表中一旦找到匹配的记录,Hive立即停止扫描。而内连接全部扫描。


    21.map-side Join

    配置自动启用


    22. ORDER BY 和 SORT BY

    order by 是全局排序

    sort by 是每个reduce局部排序


    23. DISTRIBUTE BY

    控制map的输出在reduce中的划分


    24. CLUSTER BY

    相当于 DISTRIBUTE BY、sort by 的组合


    25. 抽样查询

    select * from tablename TABLESAMPE(0.1 PERSENT)  s;

    select * from tablename TABLESAMPE(  BUCKET  2 OUT OF 10 on rand() )  s;



    26. 分桶表输入裁剪


    27. 视图注意点


    30. Hive 索引

    功能有限


    31. 常用模式设计

    (1) 按天划分的表



    32.分区


    33. 同一数据多种处理


    34. 分桶表

    太多小分区带来问题,可以使用分桶


    35. 执行计划EXPLAIN


    36. 严格模式


    37. 自动本地模式


    38. 推测执行


    39. 虚拟列


    40. 压缩杂项


    41.存档分区


    42. Java 调试


    43. Hive_test

    单元测试


    44. UDF

    继承 org.apache.hadoop.hive.ql.exec.UDF,  实现方法 evaluate()

    或者继承GenericUDF, 实现initialize、evaluate,getDisplayString 等方法


    45. Streaming

    与shell集成


    46.其他格式


    47.Thrift


    48. 结合其他Hadoop部件


    49.安全


    50. 锁

    结合zookeepper 来的


    51. 整合 Oozie


    52. HCatalog


    53. 案例















  • 相关阅读:
    VINTF
    Excel 公式
    SSIS ODBC方式连接mysql数据库
    SSIS错误汇总
    linux防火墙(转)
    如何查询域名的MX、A、DNS、txt、cname记录
    IP反向解析
    Visual Studio 内存泄漏检测方法
    strcpy慎用
    main函数前后执行代码
  • 原文地址:https://www.cnblogs.com/leeeee/p/7276129.html
Copyright © 2011-2022 走看看