Hadoop是什么?
- 狭义上:
HDFS:分布式文件存储系统
MapReduce:分布式计算框架
YARN:资源管理任务调度
- 广义上:
特指apache一款由java开发,开源的大户数据处理平台软件
hadoop生态圈,提供大数据一站式解决方案,大数据软件几乎都有!
hadoop 的发展:
Google三篇论文 之父--cutting(卡大爷)
hadoop集群的搭建:
Hadoop集群介绍:
发行版本:
社区版:apache官方版
商业版:cloudera---CDH
版本演化:
1.x--2.x(高阶版本)---3.x
hadoop集群:【都是标准的主从集群 逻辑上分离 物理上在一起】
hdfs集群(解决分布式文件存储问题):
主角色:namenode
从角色:detanode
主角是辅助角色:secondarynamenode
yarn集群(资源调度任务管理):
主角是:resourcemanager
从角色:nodemanager
MR集群(其实没有):
是在代码层面组件,本身就是java程序
1:服务器环境准备
时间同步 防火墙 免密登录 hosts映射 jdk
2:安装包编译
2.1:为什么要编译
- 官方只提供源码包 需要自己编译
- 软件运行某些特性跟操作系统相关 结合具体操作系统编译符合它版本的软件
- 修改源码中某些属性