zoukankan      html  css  js  c++  java
  • Hive 复习

    hive分为CLI(command line)(用的比较多)

    JDBC/ODBC-ThriftServer

    hiveServer(hive -service hiveserver),JDBC访问,一个客户端连接数,需要建立pool池,内存损耗极大,容易内存溢出(数据量太大不用)

    web gui(基本不用)

    Metastore (存储字段信息和数据存储HDFS的信息)

    Complier(编译器):对sql查询语句进行语意分析并通过metastore中查找表和分区的元信息,生成执行计划。

    Optimizer(优化器):优化HQL

    Executor(执行器):对生成的执行计划进行执行

    hive -e ‘select * from dual’ 命令行执行(不进入hive command line) -i  “文件名”(add jar进行UDF的预先加载)

    hive -f .sql(执行文件 不支持传递参数)

    通过hive -e的封装成hiveF 可以传递无数参数

    hive优化

    架构层面:

    1 合理利用结果集(查询后结果加以利用,常用复杂或者低效统计统一给出,避免上层作业过多计算)

    2 合理利用表分区(静态分区和动态分区)

    HQL语法层面

    执行计划

    Hive参数层面(全局)

    太暴力,很少用,有时候会起到不错效果

    技巧

    分表(把大数据的表脱离一些数据独立成别的表)

    Hadoop 负载主要是 CPU负载和IO负载

    两者可以相互转化ex:压缩(把IO转化为CPU)

  • 相关阅读:
    Java多线程学习---------超详细总结(java 多线程 同步 数据传递 )
    类的高级特性——抽象类
    多态
    继承、继承中的重写
    接口interface、实现接口implements
    “==”运算符与equals()
    静态成员
    对象
    属性和行为(成员变量和成员方法)
    字符串生成器
  • 原文地址:https://www.cnblogs.com/yaohaitao/p/5782505.html
Copyright © 2011-2022 走看看