zoukankan      html  css  js  c++  java
  • 元数据、数据仓库、hive操作注意事项

    1.元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。

    元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是关于数据的数据。

    2.ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。

    ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。

    2.数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

    数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它并不是所谓的“大型数据库”。数据仓库系统是一个信息提供平台,他从业务处理系统获得数据,主要以星型模型和雪花模型进行数据组织,并为用户提供各种手段从数据中获取信息和知识。

    3.Sqoop(发音:skup)是一款开源的工具,主要用于在HADOOP(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

    4.sqoop成功执行需要驱动包,在以下目录添加2个jar包/opt/cloudera/parcels/CDH-5.5.21.cdh5.5.2.p0.4/lib/sqoop/lib:

    mysql-connector-java-5.1.38-bin.jar

    ojdbc14-10.2.0.4.jar

    sqoop命令中并发参数 –m 属性,一定要放在table属性之后,否则命令无法识别

    采用jsch远程调用模式时,在sqoop命令没有执行完成之前不能关闭远程连接,否则即使已经提交了yarn也会中断执行。

    sqoop默认会把Oracle中number和date类型转换为double和string类型,需要在sqoop命令中指定一下类型的转换规则。

    sqoop增量抽取时,where条件使用双引号而非单引号,在Java代码远程调用ssh时,尽量使用between and,否则必须得转义<、>才能使用。

    sqoop先创建表,后插入数据时容易跟对应的字段错位,需要设置分隔符参数 –fields-terminated-by “01”,另外插入数据的顺序一定要与创建表的字段的顺序一致。

    5.CM管理页面操作

    组件报错或者无法启动时,先查看相应日志,

    如果error的地方是关于时间的,ntp同步服务器时间,然后重启该组件;

    如果error的地方是关于客户端连接问题的,重启hostMonitor服务,如果不行就重启agent服务;绝大多数情况下通过上述两步就可成功,极少数情况下,那就删除角色重新添加该服务,必要的时候可以调整一下该服务的各种角色所在的节点位置。

    如果服务器硬盘故障更换硬盘之后,各种组件启动报错,提示无法连接到cm,如果重启hostMonitor服务无效的话,可以先把该节点移除出服务器,然后配置角色模板,再添加进集群中来。

    CM主机页面中会时常显示物理内存还有剩余,但是交换内存却用了好多,导致CDH报警;这个从Linux机制的角度来看,可以忽略不管,Linux系统会不时的进行页面交换操作,以保持尽可能多的空闲物理内存,即使并没有什么需要内存,Linux也会交换出暂时不用的内存页面,这样的可以避免等待交换所需的时间。如果非要消除这个报警,那就调整Linux中swappiness参数的值为0即可。

    6.hive操作注意事项

    1 hive中sql没有像Oracle那样进行自动优化,sql的优化非常重要,比如:同一业务逻辑,采用join方式一分钟搞定,但是如果采用等值连接的方式,2小时都没出结果。

    2 hive中不支持join…on…or的形式,可以转换成union all的方式,此外hive也不支持on后面不相等的条件,只支持相等条件。

    3 hive的存储方式一般有textfile、sequencefile、rcfile等三种,其中textfile即是文本格式,hive的默认存储格式,数据不做压缩,磁盘开销大,数据解析开销大,查询的效率最低,可以直接存储,但加载数据的效率最高;sequencefile,是Hadoop提供的一种二进制文件格式是Hadoop支持的标准文件格式,可压缩、可切片,查询效率高,但需要通过text文件转化来加载;TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的,而rcfile 是一种行列存储相结合的存储方式,先将数据按行分块再按列式存储,保证同一条记录在一个块上,避免读取多个块,有利于数据压缩和快速进行列存储,具备相当于行存储的数据加载和负载适应能力,扫描表时避免不必要的列读取,而使用列维度的压缩,能有效提升存储空间利用率,因此存储空间最小,查询的效率最高 ,但需要通过text文件转化来加载,加载的速度最低,但是由于hdfs一般都是一次写入多次读取,所以加载的速度较慢可以接受;目前大数据平台中hive的存储格式采用的是普通的textfile,后续还有很大的优化提示空间。

  • 相关阅读:
    1032. Sharing (25)
    1031. Hello World for U (20)
    1030. Travel Plan (30)
    1029. Median (25)
    1028. List Sorting (25)
    1026. Table Tennis (30)
    win10 tortoiseSVN文件夹及文件图标不显示解决方法
    qrcode.react和jquery.qrcode生成二维码
    js来获取所有屏幕适配的总结
    handsontable整理
  • 原文地址:https://www.cnblogs.com/yulu080808/p/8792938.html
Copyright © 2011-2022 走看看