zoukankan      html  css  js  c++  java
  • Hive学习笔记记录

    典型数据来源:

    文件管理服务:

    FTP文件服务:采用c/s模式,用户可以通过不同的客户端实现文件的上传与下载。

    NFS文件服务:借助于TCP/IP协议实现网络文件共享

    Samba文件服务:是一种在局域网上实现文件的资源共享。

    数据质量检测评估:

    1)完整性(数据信息是否存在缺失的情况)

    2)一致性(数据是否遵循统一的规范,数据集合是否保持统一的格式)

    3)准确性(数据记录信息是否存在异常或错误比如出现乱码)

    4)及时性(数据产生到可以查看的时间间隔,也叫数据的延时时长)

    数据仓库:

    数据仓库是面向主题的,集成的,非易失的和时变的数据集合,用于支持管理决策

    数据仓库与数据库的区别:

    数据库是面向事务的,数据仓库是面向主题设计的。

    数据库一般存储业务数据,数据仓库存储的一般是历史数据。

    数据库设计应尽量避免冗余。

    数据仓库的分层架构:

     三层:源数据层——》数据仓库层——》数据应用层

    ETL是其中的核心:抽取Extra,转化Transfer ,装载 Load,ETL是数据仓库的流水线

    ,它维系着数据仓库中数据的新陈代谢。

    数据仓库元数据管理:

    元数据主要举数据仓库中模型的定义,各层间的映射关系,监控数据仓库的数据状态以及

    ETL的任务运行状态。

    HIVE 是基于hardoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据文件映射为

    一张数据库表,并提供sql查询功能

  • 相关阅读:
    go开发环境配置
    Go环境配置
    为什么Redis集群有16384个槽【转发】
    Spring Cloud Hystrix降级处理超时时间设置
    win10下查看进程,杀死进程【转载】
    SpringCloud的各种超时时间配置效果
    解决springcloud Feign项目中遇到的timeout请求超时的问题【转载】
    数据库索引
    XML
    JDBC
  • 原文地址:https://www.cnblogs.com/zhangyuntao02/p/9449753.html
Copyright © 2011-2022 走看看