hive的简介 - 走看看

zoukankan html css js c++ java

hive的简介

Hive Apache的顶级项目官网： hive.apache.org

原来是hadoop里的一个子项目，后来脱离出来成为一个顶级项目。

github.com/apache/hive 这是源码地址，它是开源的，你可以对其进行代码改进，提交给社区，社区采用以后会合并进代码中

hive是一个构建在hadoop上的数据仓库

可以理解为

数据存在HDFS上

执行通过MR来执行（MR（2.0过时了）spark，Tez） (hive 可以执行在MR Spark 和 Tez三个执行引擎之上)

运行是在yarn上进行

如果一个框架最终不能落地到SQL上，那么这个框架就有待选择

总之hive就是使用sql来搞定大数据的数据分析。

MR在运行中，多个应用程序存在依赖关系，后一个应用程序的输入为前一个的输出。在这种情况下，MapReduce并不是不能做，而是使用后，每个MapReduce作业的输出结果都会写入磁盘，会造成大量的词频IO，导致性能非常低下，此时可以考虑用Spark等迭代计算框架。

补充：Hive CLI hive客户端

MySQL存着元数据，与hive之间存在单点的风险

单点问题怎么解决

主备是指同时存在两个MYSQL，当主挂掉以后，备用的顶上。

hive是一个客户端，不存在集群概念

hive和关系型数据库有什么关系

都可以使用SQL来搞定

速度方面，关系数据库查起来肯定快一些 hive执行sql是通过mr来执行的，速度肯定慢时效性。注意千万不能再web界面上按一个按钮执行一个mr，让反馈回来，因为无法预知底层数据有多少，若数据了很大，可能要等十几个小时，页面就会卡在那里。

事务、insert updata

schema信息解释

在学关系型数据库时，有表，数据库，字段，字段名称，数据类型这些就是schema

元数据信息

描述数据的数据 schema是元数据的内容

查看全文

相关阅读:
KDrive 與 Embedded Linux
windows内存管理初探
 开源方案
 boot time 优化
 psplash
linux下操纵大于2G文件
 【技术贴】Windows图片和传真查看器打开图片慢，正在生成预览的解决办法！
【转】c++.primer.plus.第五版.中文版[下载]
【技术贴】魂斗罗坦克Normal Tanks第五关以及第5、6、7、关的LICENCE CODE的查
 【转】奇文共欣赏，疑义相与析：原文转载《电脑维护技巧》(N条举措N条理由)并请大家交流研讨

原文地址：https://www.cnblogs.com/xuziyu/p/10473461.html