zoukankan      html  css  js  c++  java
  • Hive 复习

    hive分为CLI(command line)(用的比较多)

    JDBC/ODBC-ThriftServer

    hiveServer(hive -service hiveserver),JDBC访问,一个客户端连接数,需要建立pool池,内存损耗极大,容易内存溢出(数据量太大不用)

    web gui(基本不用)

    Metastore (存储字段信息和数据存储HDFS的信息)

    Complier(编译器):对sql查询语句进行语意分析并通过metastore中查找表和分区的元信息,生成执行计划。

    Optimizer(优化器):优化HQL

    Executor(执行器):对生成的执行计划进行执行

    hive -e ‘select * from dual’ 命令行执行(不进入hive command line) -i  “文件名”(add jar进行UDF的预先加载)

    hive -f .sql(执行文件 不支持传递参数)

    通过hive -e的封装成hiveF 可以传递无数参数

    hive优化

    架构层面:

    1 合理利用结果集(查询后结果加以利用,常用复杂或者低效统计统一给出,避免上层作业过多计算)

    2 合理利用表分区(静态分区和动态分区)

    HQL语法层面

    执行计划

    Hive参数层面(全局)

    太暴力,很少用,有时候会起到不错效果

    技巧

    分表(把大数据的表脱离一些数据独立成别的表)

    Hadoop 负载主要是 CPU负载和IO负载

    两者可以相互转化ex:压缩(把IO转化为CPU)

  • 相关阅读:
    UVa 531 Compromise
    UVa 10130 SuperSale
    UVa 624 CD
    2015年第一天有感
    Bootstrap3.0学习(一)
    IIS上.net注册
    11g Oracle导出表 默认不导出数据为空的表解决
    Oracle数据库密码重置、导入导出库命令
    每天进步一点--WCF学习笔记
    C#每天进步一点--异步编程模式
  • 原文地址:https://www.cnblogs.com/yaohaitao/p/5782505.html
Copyright © 2011-2022 走看看