Hadoop学习笔记
- Hadoop概念

1.思想之源

- HDFS分布式存储
2.1 HDFS概念

2.2 HDFS优点

-
- HDFS缺点

-
- HDFS架构

-
- HDFS存储单元(block)

-
- HDFS设计思想

-
- HDFS核心概念
1.NameNode概念

2.SecondaryNameNode概念

3.SNN合并流程

4.DataNode概念

5.Block副本放置策略

6.HDFS写流程

7.HDFS读写权限

8.安全模式

2.8下载Hadoop

官方文档

2.9搭建完全分布式HDFS
前提:安装jdk,下载hodoop
1.计划服务器搭建(共四台)

2.计划搭建流程

3.配置yum源(可选)



4.安装ntpdate时间同步
四台都要执行安装
![]()
5.设置ntpdate服务器
![]()
后面url可在网上搜到
(关闭防火墙)
6.设置免密登录

查看私钥文件和公钥文件


让node2-node4都进行免密登录


node3,node4也是一样的操作
7.安装jdk
上传jdk和hadoop

把安装版传到node2,node3,node4

执行安装
![]()
修改etc/profile文件,配置环境变量

注意:四台都需要有该环境
8.安装Hadoop
![]()
-c /home

修改etc/profile

刷新profile文件
![]()
修改hadoop里面的etc
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
删除文档

同步node
![]()
scp –r hadoop-2.5.1/ node3:/home
9.格式化节点
![]()
10.启动HDFS
![]()
访问Hadoop,node1需要在host中配置,直接加端口访问即可:50070

11.查看节点

12.查看是否有DataNode


显示这个环境搭建成功!
3.0 HDFS的shell命令
|
mkdir |
创建目录 |
|
ls |
查看当前路径下的hdfs文件目录 |
|
put |
上传文件 |
|
get |
下载文件 |
|
rm –f |
删除文件 |
3.1 安装Eclipse插件

放到该目录下

重启eclipse,暂不支持版本高的eclipse
3.2 eclipse操作

创建连接

修改hosts



改用户名

3.3 项目的创建

导入jar包
还有commons
3.4 eclipse代码操作
粘贴配置文件


- 创建目录

- 上传文件

- 查看文件

- 上传文件(音频、文档)

- 下载文件

3.5 HDFS 2.x Federation
1.概念

Federation中文:联邦
具体图示:


2.搭建环境

图片上配置了两组
- HA

- HDFS-HA
- 部署ha流程
- 安装配置zookeeper

- 配置hdfs-site.xml

- 配置http请求地址

- 配置journal集群

- 配置故障器

- 配置免密钥

- 修改core-site.xml

- 部署ha
- 具体流程图




- 做免密钥

全部执行下该命令
![]()
测试

- 修改配置文件
- 删除masters

其他几台也一样
- 删除hadoop

- 修改hdfs-site.xml


- 修改core-site.xml

- 安装zookeeper
- 解压zookeeper
![]()
- 修改profile文件
![]()
- 修改zoo.cfg
![]()

- 创建zookeeper目录

- 创建myid文件
(在node1)写个1
- 同步
![]()
![]()
Copy目录,拷贝到node2,3
- 创建myid
在node2,node3中的opt文件中创建zookeeper,里面创建myid文件,写上2和3
- 启动zookeeper
![]()
- 配置hdfs-site.xml

- 配置core-site.xml

- 同步配置文件

- 启动journalnode

在3和4也启动下
![]()
在四里面也配置下前两个


![]()
![]()
![]()

- MapReduce分布式计算
- 概念


例子—统计文本文件

- MapReduce的Split大小

- Mapper


- Reducer


- Shuffler







