参考资料:http://www.cnblogs.com/sharpxiajun/p/5585613.html
大数据时代的数据量是超大规模的,传统的关系数据库已经很难存储和管理这些数据了,为了存储海量数据,我们有了HDFS,它可以把成千上万台服务器上的硬盘聚集成一块超级大的硬盘,为了让这些数据产生价值,我们有了mapreduce,它可以计算这个超大硬盘的数据,面对这么大的数据量我们还有一个迫切的需求那就是如何快速检索出我们想要的数据,而这个功能就是由hbase来承担。
hbase利用索引技术从海量数据中快速查询出所需数据
hbase只是提供一种能快速检索海量数据的一种计算模型而已。
参考资料:http://www.cnblogs.com/sharpxiajun/archive/2013/06/02/3114180.html
HDFS:hadoop的分布式文件系统
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行
hadoop和mapreduce操作专业型太强,所以facebook在这些的基础上开发了hive框架
参考资料:http://www.cnblogs.com/sharpxiajun/archive/2013/06/15/3137765.html
1.什么是分布式文件系统?
管理网络中跨多台计算机存储的文件系统称为分布式文件系统。
2.为什么需要分布式文件系统了?
原因很简单,当数据集的大小超过一台独立物理计算机的存储能力时候,就有必要对它进行分区(partition)并存储到若干台单独计算机上。
3.分布式系统比传统的文件的系统更加复杂
因为分布式文件系统架构在网络之上,因此分布式系统引入了网络编程的复杂性,所以分布式文件系统比普通文件系统更加复杂。
4.Hadoop的文件系统
很多童鞋会把hdfs等价于hadoop的文件系统,其实hadoop是一个综合文件系统抽象,而hdfs是hadoop旗舰级文件系统,hadoop除了hdfs还能集成其他文件系统
参考资料:http://www.cnblogs.com/sharpxiajun/p/3151395.html
mapreduce是hadoop的计算框架