zoukankan      html  css  js  c++  java
  • Hive入门--6.表的基本操作

    1.Hive表的基本数据类型


    tinyint, smallint, int, bigint, boolean, float, double,
    string, binary, timestamp, decimal, char, varchar, date

    2.Hive表的集合类型


    Array:ARRAY类型是由一系列相同数据类型的元素组成, 这些元素可以通过下标来访问,例 : array[1]

    Map:MAP包.合key->value键值对,可以通过key来访问元素,例如: map[‘key’]

    Struct:可以包含不同数据类型的元素,这些元素可以通过“点语法”的方式获得,例如: struct.key1

    3.Hive的数据类型转换

    这里写图片描述

    4.Hive的底层文件存储格式


    - #文件格式
      - textfile
      - sequencefile
      - rcfile
     
    - #扩展接口
      - 默认的文件读取方式
      - 自定义inputformat
      - 自定义serde

    4.1 RCFile的生成过程

    这里写图片描述

    有的时候查询只需要查出某一个列,而表中有可能包含成百上千的字段,所以使用RCFile可以把列 以行的形式存储,提高查询效率,节省时间。

    4.2 Hive的基本使用——表

    官方定义创建表的方式:

    CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name [(col_name data_type[COMMENT col_comment],...)]
    [PARTITIONED BY (col_name data_type[COMMENT col-comment],...)]
    [CLUSTERED BY (col_name1,col_name2,...)[SORTED BY(col_name [ASC|DESC],...)] INTO num_buckets BUCKETS]
    [ROW FORMAT row_format][STORED AS file_format]
    |STORED BY ‘storage.handler.class.name’[WITH SERDEPROPERTIES(...)]
    ]
    [LOCATION hdfs_path]
    [TBLPROPERTIES(property_name=property_value,...)]
    [AS select_statement]
    

    创建表举例:

    CREATE [EXTERNAL] TABLE employees(
    name string,
    subordinates array<string>,
    duductions map<string,float>,
    address struct<street:string,city:string,state: string,zip:int>
    )

    注:创建表的时候最好在TABLE后面加上 if not exists
    删除表的时候也最好加上 if exists
    这里写图片描述
    防止表存在时被覆盖,影响其他语句的执行

    4.2.1 查看表的描述信息


    如果在定义表的时候,定义了 comment 注释字段
    则在命令行中可以通过:

    DESC Table_Name;

    查看表的描述信息
    这里写图片描述

    如果想显示更详细的内容,输入:

    DESC FORMATEED Table_Name;

    查看表的详细描述


    MANAGED_TABLE:内部表

    显示建表语句

    show create table Table_Name;

    4.2.2 将文件中的内容加载进表中

    LOAD DATA LOCAL INPATH ‘/…’ OVERWRITE INTO TABLE Table_Name;


    OVERWRITE : 以覆盖方式加载上传linux本地文件,如果没有这个字段,则是默认以追加方式存储,会将后面的同名文件改为File_Name_copy_n(n:第几份拷贝,从1开始)

    注意:如果指定字段分隔符,必须以指定的字段分隔符严格存放数据,否则必然出错!

    4.2.3 删除内部表

    drop table Table_Name;


    内部表被删掉,数据对应的文件将会被删掉
    如果创建表的时候指定了LOCATION ,那么在hdfs上的文件也同样将会被删掉

    4.2.4 删除外部表


    删除外部表的时候,只删除外部表对应的元数据信息,数据所对应的文件将不会被删除

    4.2.5 复杂格式表的创建

    这里写图片描述

    第8行collection items terminated by ‘,’
    第10行map keys terminated by ‘:’ 指定map的键值对是以“:”分隔的
    源数据格式如下:

    这里写图片描述
    这里写图片描述

    查询数组中的数据

    命令格式:select suborinates[n] from employees;
    注:n从0开始

    查询map中的数据

    命令格式:select ductions[“k2”] from employees;
    注:加载表数据的时候没有让key一致,需要修改

    查询结构体中的数据

    命令格式:select address.city from employees;

    以下查询是不走map-reduce过程的:

    select * from tablename [limit n];
    注:外部表 内部表 是一样不走map-reduce的

    4.2.6 Hive建表的其他方式


    1. 由一个表创建另一个表结构相同的表
    create table test3 like test2;

    2. 从其他表查询创建
    create table test4 as select name.addr from test5;

    5. Hive 不同文件类型的读取对比


    stored textfile
     -直接查看hdfs
     - hadoop fs -text
     
    stored as sequencefile
     - hadoop fs -text 
     
    stored as rcfile
     -hive -service refilecat path
     
    stored as inputformat ‘class’
     -outformat ‘class’

    5.1 创建一张以textfile格式存储的表

    create table test_txt(name string,val string) stored as textfile;

    表的描述信息:
    这里写图片描述

    5.2创建一张以sequencefile格式存储的表

    create table test_seq(name string,val string) stored as sequencefile;

    表的部分描述信息:
    这里写图片描述

    5.3 创建一种以RCfile格式存储的表

    create table test_rc(name string,val string) stored as rcfile;
    表的描述信息:
    这里写图片描述

    5.4 创建一种以自定义文件格式存储的表

    create table test_rc(name string,val string) stored as inputformat ‘class’;

    注:必须添加jar包之后才能进行后续操作(创建表、查询等)

    6. Hive 使用SerDe(Serialize Deserialize)

    这里写图片描述
    这里写图片描述

    7. Hive 分区表

    7.1 分区:

    • 在Hive Select 查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作

    • 分区表指的是在创建表时指定 partition 的分区空间

    7.2 分区语法


    create table tablename(
    name string
    )
    Partitioned by(key type,…)

    创建分区表示例:

    create table employees (
    name string,
    salary float,
    subdinates array<string>,
    deductions map<string,float>,
    address struct<street:string,city:string,state:string,zip:int>
    )
    partitioned by(dt string,type string)
    row format delimited fields terminated by '	'
    collection items terminated by ','
    map keys terminated by ':'
    lines terminated by '
    '
    stored as textfile
    


    注:分区下可以再继续创建分区,类似于文件的子目录

    7.3 增加分区


    给employees表下添加分区20160623/test

    hive> alter table employees add if not exists partition(dt=’20160623’,type=’test’);


    通过浏览器查看,同样发现目录下多了这些文件夹

    8. hive分桶(Bucket)

    8.1 分桶

    • 对于每一个表(table)或者分区,hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分
    • Hive是针对某一列进行分桶
    • Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中

    好处:

    • 获得更高的查询处理效率
    • 使取样(sampling)更高效

    创建分桶表

    • 创建分桶之前需要先作如下设置:
      set hive.enforce.bucketing=true;

    • 然后再创建表:
      create table bucketed_user (
      id int,
      name string
      )
      clustered by(id) sorted by(name) into 4 buckets
      row format delimited fields terminated by ‘ ’ stored as textfile;

    向表中插入数据:

    insert overwrite table bucketed_user select name,addr from test_txt;

    通过浏览器可以查看到

    hdfs:/user/warehouse/bucketed_user/目录下多了4个文件
    这里写图片描述说明分桶成功

    对该表数据的查找是通过计算哈希值实现的,计算该字段的哈希值,直接定位到与该字段哈希值相等的桶中,加快了查询效率

    8.2 分区与分桶的比较

    这里写图片描述
    注:分区的层级必须是一致的
    (例如左图中分桶的层级在左右两个子树中都是第4层)

    分区表中的底层可以使用分桶实现,桶是存储类型的最低形式,分桶表不能再分区

  • 相关阅读:
    巨蟒python全栈开发-第17天 核能来袭-成员
    常用Git命令大全思维导图
    Android传递Bitmap的两种简单方式及其缺陷
    功能强大的图片截取修剪神器:Android SimpleCropView及其实例代码重用简析
    Package pdftex.def Error: PDF mode expected, but DVI mode detected!
    Android第三方开源图片裁剪截取:cropper
    Android第三方文件选择器:aFileChooser
    Android实现ViewPager无限循环滚动回绕
    AndroidTreeView:Android树形节点View
    Android DynamicGrid:拖曳交换位置
  • 原文地址:https://www.cnblogs.com/shiguangmanbu2016/p/5932831.html
Copyright © 2011-2022 走看看