zoukankan      html  css  js  c++  java
  • Hive

    Hive

    由facebook开源,最初用于解决海量数据结构化的统计问题,构建在hadoop之上的数据仓库,数据计算使用MR,数据存储使用HDFS,通常用于离线数据处理。

    Hive Metastore

    Embedded Mode (单用户模式)

    Local Mode (多用户模式、元数据库在本机)

    Remote Server Mode(元数据为独立的数据库<mysql>)

     

    warehouse是hive在hdfs上的一个目录,在hive的配置文件中配置的。上表中说普通表一定会copy到warehouse是错误的,类似下面的建表方式,内布表的数据并不会copy到warehouse中,因为在建表的时候指定了数据的目录‘hdfs://DX2-1:8020/data/SogouQtmp’;但是在删除内部表的时候,相应目录的数据确实会删除掉,而外部表删除的时候是不会删除数据的。

    基本概念:

     

     

    partition一般用于离散值得划分,bucket用于连续值得划分,需要预先指定buckets的大小

  • 相关阅读:
    C++ reference
    C++ const 限定符
    POJ 1222 EXTENDED LIGHTS OUT(高斯消元)
    poj 2185
    poj 2406
    poj 2752
    hdu 6171
    hdu 6127
    uva 3708
    hdu 6092
  • 原文地址:https://www.cnblogs.com/fisherinbox/p/6587338.html
Copyright © 2011-2022 走看看