zoukankan      html  css  js  c++  java
  • 吴裕雄--天生自然HADOOP操作实验学习笔记:hive DDL

    实验目的

    了解hive DDL的基本格式

    了解hive和hdfs的关系

    学习hive在hdfs中的保存方式

    学习一些典型常用的hiveDDL

    实验原理

      有关hive的安装和原理我们已经了解,这次实验我们通过使用hive进行简单的测试进一步了解hive。hive DDL的意思是Hive Data Definition Language,hive数据定义语言,操作和关系型数据库的DDL类似,但是也有很多新功能。我们学习的方式就是通过打开官方网站的文档,进行操作。

    1.电脑语言

      数据库模式定义语言并非程序设计语言,DDL数据库模式定义语言是SQL语言(结构化查询语言)的组成部分。SQL语言包括四种主要程序设计语言类别的语句:数据定义语言(DDL),数据操作语言(DML),数据控制语言(DCL)和事务控制语言(TCL)。
      DDL描述的模式,必须由计算机软件进行编译,转换为便于计算机存储、查询和操纵的格式,完成这个转换工作的程序称为模式编译器。
      模式编译器处理模式定义主要产生两种类型的数据:数据字典以及数据类型和结构定义。
      数据字典和数据库内部结构信息是创建该模式所对应的数据库的依据,根据这些信息创建每个数据库对应的逻辑结构;对数据库数据的访问、查询也根据模式信息决定数据存取的方式和类型,以及数据之间的关系和对数据的完整性约束。
      数据字典是模式的内部信息表示,数据字典的存储方式对不同的DBMS各不相同。
      数据类型和结构的定义,是指当应用程序与数据库连接操作时,应用程序需要了解产生和提取的数据类型和结构。是为各种宿主语言提供的用户工作区的数据类型和结构定义,使用户工作区和数据库的逻辑结构相一致,减少数据的转换过程,这种数据类型和结构的定义通常用一个头文件来实现。
      数据库模式的定义通常有两种方式: 交互方式定义模式和通过数据描述语言DDL 描述文本定义模式。

    2.DDL

      数据库模式定义语言DDL(Data Definition Language),是用于描述数据库中要存储的现实世界实体的语言。一个数据库模式包含该数据库中所有实体的描述定义。

      DDL基本格式
      hive的官网是hive.apache.org,打开以后进入Language Manual页面,选择DDL。就可以看到hiveDDL的基本格式:

      CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name    -- (Note: TEMPORARY available in Hive 0.14.0 and later)

      [(col_name data_type [COMMENT col_comment], ...)]

      [COMMENT table_comment]

      [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]

      [CLUSTERED BY (col_name, col_name, ...) [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]

      [SKEWED BY (col_name, col_name, ...)                  -- (Note: Available in Hive 0.10.0 and later)]

         ON ((col_value, col_value, ...), (col_value, col_value, ...), ...)

         [STORED AS DIRECTORIES]

      [

       [ROW FORMAT row_format]

       [STORED AS file_format]

         | STORED BY 'storage.handler.class.name' [WITH SERDEPROPERTIES (...)]  -- (Note: Available in Hive 0.6.0 and later)

      ]

      [LOCATION hdfs_path]

      [TBLPROPERTIES (property_name=property_value, ...)]   -- (Note: Available in Hive 0.6.0 and later)

      [AS select_statement];   -- (Note: Available in Hive 0.5.0 and later; not supported for external tables)

      create后面的[TEMPORARY] [EXTERNAL]是两个选项,因为hive的数据是存储在hdfs上的, 如果选择了external,删除hive表后,hdfs上的数据不会删除,否则删除表格也会删除数据。然后是选择hive表格属性名和数据类型。partitioned by是分区,stored as是存储方式,还有一些其余的相关选项。

    .hive数据类型

      首先我们需要了解hive的数据类型,primitive_type、array_type、map_type、struct_type,其中primitive_type常用的有INT、BIGINT、BOOLEAN、FLOAT、DOUBLE、STRING等,其他的可以查看官网。

    .hive分区

      hive添加分区以后,实际上这个hive表就多了分区属性,而分区是通过文件夹的形式表现出来的。例如学生属性表包括了id和姓名,根据性别分区,这样我们的最后的表格的数据就包括了id、姓名和性别三个属性,而hdfs上的数据被放在两个文件夹下,每个文件夹下的数据都有两列:id和姓名。

    .hive ROW FORMAT

      ROW FORMAT的意思是每一行的格式,最简单的就是通过分隔符,另外还有正则表达式或者自定义的类。例如 WITH SERDEPROPERTIES ("input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) \[(.*)\] "(.*?)" (-|[0-9]*) (-|[0-9]*)"代表每一行格式符合这个正则表达式。而row format delimited fields terminated by ',' collection by '-' map keys terminated by ':' lines terminated by ' ';代表通过使用分隔符隔开每个属性。

    .hive存储

      hive支持多种存储方式,例如文本、压缩的序列化文件、parquet文件等。

    实验环境

    1.操作系统
      服务器:Linux_Centos
      操作机:Windows_7
      服务器默认用户名:root,密码:123456
      操作机默认用户名:hongya,密码:123456

    2.实验工具
      1.Xshell

    Xshell是一个强大的安全终端模拟软件,它支持SSH1, SSH2, 以及Microsoft Windows 平台的TELNET 协议。Xshell 通过互联网到远程主机的安全连接以及它创新性的设计和特色帮助用户在复杂的网络环境中享受他们的工作。
      Xshell可以在Windows界面下用来访问远端不同系统下的服务器,从而比较好的达到远程控制终端的目的。实验中我们用到XShell5,其新增功能有:
      1.有效保护信息安全性;Xshell支持各种安全功能,如SSH1/SSH2协议,密码,和DSA和RSA公开密钥的用户认证方法,并加密所有流量的各种加密算法。重要的是要保持用户的数据安全与内置Xshell安全功能,因为像Telnet和Rlogin这样的传统连接协议很容易让用户的网络流量受到任何有网络知识的人的窃取。Xshell将帮助用户保护数据免受黑客攻击。
      2.最好的终端用户体验;终端用户需要经常在任何给定的时间中运用多个终端会话,以及与不同主机比较终端输出或者给不同主机发送同一组命令。Xshell则可以解决这些问题。此外还有方便用户的功能,如标签环境,广泛拆分窗口,同步输入和会话管理,用户可以节省时间做其他的工作。
      3.代替不安全的Telnet客户端;Xshell支持VT100,VT220,VT320,Xterm,Linux,Scoansi和ANSI终端仿真和提供各种终端外观选项取代传统的Telnet客户端。
      4. Xshell在单一屏幕实现多语言;Xshell中的UTF-8在同类终端软件中是第一个运用的。用Xshell,可以将多种语言显示在一个屏幕上,无需切换不同的语言编码。越来越多的企业需要用到UTF-8格式的数据库和应用程序,有一个支持UTF-8编码终端模拟器的需求在不断增加。Xshell可以帮助用户处理多语言环境。  5. 支持安全连接的TCP/IP应用的X11和任意;在SSH隧道机制中,Xshell支持端口转发功能,无需修改任何程序,它可以使所有的TCP/IP应用程序共享一个安全的连接。

     

     

     

     

     

     

     

     

     

     

     

    001,hongyaa,java_hadoop_spark,beijing:haidian_shanghai:fengxian

     

    4.1创建表格,导入数据。首先创建一个student的表格。

    create table student (id int, name string) partitioned by (sex string) row format delimited fields terminated by ',';

     

    4.3回到“1standalone”,在hive中使用load语句导入到hive的分区表。

    load data local inpath "/home/data/day014/student.txt" overwrite into table student partition (sex='male');

    load data local inpath "/home/data/day014/student2.txt" overwrite into table student partition (sex='female');

    select * from student;   //查看表内容

     

    5.1创建表格。命令如下:

    CREATE TABLE apachelog (

    host STRING,

    identity STRING,

    t_user STRING,

    time STRING,

    request STRING,

    referer STRING,

    agent STRING)

    ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'

    WITH SERDEPROPERTIES (

    "input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) \[(.*)\] "(.*)" (-|[0-9]*) (-|[0-9]*)"

    )

    STORED AS TEXTFILE;

    5.3切换到“1standslone”插入数据,查看内容。

    load data local inpath '/home/data/day014/apachelog.txt'overwrite into table apachelog;

    select * from apachelog;

  • 相关阅读:
    爬虫--urllib,requests模块
    ADO.NET实用经验汇总
    MVC框架的优点-老外的原文翻译
    ASP.NET MVC 3: Razor的@:和语法
    html做表格只显示表格的外边框
    ASP.NET 页生命周期概述
    Asp.Net母版页元素ID不一致的体现
    Asp.Net套用母版页后元素ID不一致之个人总结
    ASP.NET 4.0配置文件中的ClientIDMode属性
    Asp.Net母版页和内容页运行机制
  • 原文地址:https://www.cnblogs.com/tszr/p/12168910.html
Copyright © 2011-2022 走看看