zoukankan      html  css  js  c++  java
  • 928每日博客

    昨天老师发布了课堂测试HIVE数据库的操作,我就要去网上查找相应的资料。

    Hive入门教程
    Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive是一个数据仓库基础工具在Hadoop中用来处理结构化数据。它架构在Hadoop之上,总归为大数据,并使得查询和分析方便。

    在Hive中,Hive是SQL解析引擎,它将SQL语句转译成M/R Job然后在Hadoop执行。Hive的表其实就是HDFS的目录/文件,按表名把文件夹分开。如果是分区表,则分区值是子文件夹,可以直接在M/RJob里使用这些数据。

    最初,Hive是由Facebook开发,后来由Apache软件基金会开发,并作为进一步将它作为名义下ApacheHive为一个开源项目。它用在好多不同的公司。例如,亚马逊使用它在Amazon Elastic、MapReduce。

    为什么使用 Hive

    直接使用 MapReduce 所面临的问题:

      1、人员学习成本太高

      2、项目周期要求太短

      3、MapReduce实现复杂查询逻辑开发难度太大

    为什么要使用 Hive:

      1、更友好的接口:操作接口采用类 SQL 的语法,提供快速开发的能力

      2、更低的学习成本:避免了写 MapReduce,减少开发人员的学习成本

      3、更好的扩展性:可自由扩展集群规模而无需重启服务,还支持用户自定义函数

    Hive 特点

    优点

      1、可扩展性,横向扩展,Hive 可以自由的扩展集群的规模,一般情况下不需要重启服务 横向扩展:通过分担压力的方式扩展集群的规模 纵向扩展:一台服务器cpu i7-6700k 4核心8线程,8核心16线程,内存64G => 128G

      2、延展性,Hive 支持自定义函数,用户可以根据自己的需求来实现自己的函数

      3、良好的容错性,可以保障即使有节点出现问题,SQL 语句仍可完成执行

    缺点

      1、Hive 不支持记录级别的增删改操作,但是用户可以通过查询生成新表或者将查询结 果导入到文件中(当前选择的 hive-2.3.2 的版本支持记录级别的插入操作)

      2、Hive 的查询延时很严重,因为 MapReduce Job 的启动过程消耗很长时间,所以不能 用在交互查询系统中。

      3、Hive 不支持事务(因为不没有增删改,所以主要用来做 OLAP(联机分析处理),而 不是 OLTP(联机事务处理),这就是数据处理的两大级别)。

  • 相关阅读:
    torchvision 之 transforms 模块详解
    图像的形状相关参数顺序
    卷积神经网络(CNN)
    OpenCV 图片基本操作
    Dataset 和 DataLoader 详解
    ARM开发各种烧写文件格式说明(ELF、HEX、BIN)结合KEIL环境的使用
    14 局部段描述符的使用
    一文看懂Linux内核!Linux内核架构和工作原理详解
    13 从保护模式返回实模式
    基于win10家庭版的docker安装
  • 原文地址:https://www.cnblogs.com/ruangongwangxiansheng/p/14161632.html
Copyright © 2011-2022 走看看