zoukankan      html  css  js  c++  java
  • Hive 复习

    hive分为CLI(command line)(用的比较多)

    JDBC/ODBC-ThriftServer

    hiveServer(hive -service hiveserver),JDBC访问,一个客户端连接数,需要建立pool池,内存损耗极大,容易内存溢出(数据量太大不用)

    web gui(基本不用)

    Metastore (存储字段信息和数据存储HDFS的信息)

    Complier(编译器):对sql查询语句进行语意分析并通过metastore中查找表和分区的元信息,生成执行计划。

    Optimizer(优化器):优化HQL

    Executor(执行器):对生成的执行计划进行执行

    hive -e ‘select * from dual’ 命令行执行(不进入hive command line) -i  “文件名”(add jar进行UDF的预先加载)

    hive -f .sql(执行文件 不支持传递参数)

    通过hive -e的封装成hiveF 可以传递无数参数

    hive优化

    架构层面:

    1 合理利用结果集(查询后结果加以利用,常用复杂或者低效统计统一给出,避免上层作业过多计算)

    2 合理利用表分区(静态分区和动态分区)

    HQL语法层面

    执行计划

    Hive参数层面(全局)

    太暴力,很少用,有时候会起到不错效果

    技巧

    分表(把大数据的表脱离一些数据独立成别的表)

    Hadoop 负载主要是 CPU负载和IO负载

    两者可以相互转化ex:压缩(把IO转化为CPU)

  • 相关阅读:
    Ubuntu 系统装机指南
    java读取配置文件属性
    反转单链表 递归与非递归
    迟到的2013年终总结
    2014年阅读资料总结
    程序人生的四个象限和两条主线
    查找单链表中倒数第k个结点
    技术人员应真正学会的第二课程
    Linux“七大蠢”收录
    postman测试方法,出现400错误码
  • 原文地址:https://www.cnblogs.com/yaohaitao/p/5782505.html
Copyright © 2011-2022 走看看