- Hadoop 发展历史
- Apache Nutch 网页抓取互据,数据量达到瓶颈,
- Google 发表论文 Google FileSystem
- Apache 根据论文解决问题
- Google 发表论文MapReduce
- Apache 根据论文,写了一套Mapreduce系统,应用到自己的项目
- Apache 将Hadoop 从原有的项目中分离出来
- 之后很多的企业,将Hadoop很广泛的得到了应用。
- Hbase 本身不支持事务,但是剋和phoenix可以支持事务。他存储的容量是特别大的。HBase他可以有上百万列。上百亿的行。
- 网站的网址 hadoop.apache.org
- Hadoop的定义
- 开源的,高可靠,可伸缩 的分布式的计算框架。
- hadoop 版本选择
- 开源,测试不是很健全,所以用2.5 到2.8最好。
- hadoop 四大模块
- Hadoop commons :他里边分装了大量的代码,未其他的三个模块提供代码支持。
- HDFS :分布式文件系统,Hadoop存储数据就是靠的这个模块。
- YARN :计算资源管理平台
- 他负责计算资源的分配和调度的。
- MapReduce: 分布式的计算模型,可以理解为一个计算程序。他和YARN相当于火车和铁轨上的关系。包括后边学习的SPark 相当于高铁。
- Hadoop解决了什么问题
- 解决了海量数据存储、海量数据的计算。 解决的方式就是分布式的方案,横向的扩展。