Hadoop概述
yarn:
ResourceManager:
处理客户端请求
启动/监控ApplicationMaster
监控NodeManager
资源分配调度
ApplicationMaster:
程序切分
为应用程序申请资源 并分配任务
任务监控与容错
NodeManager:
单个节点上的资源管理
处理来自ResourceManager命令
处理来自ApplicationMaster命令
Container:
对任务运行环境的抽象,封装了CPU、内存等多维资源以及环境变量、启动命令等任务运行相关的信息
1.机器规划
机器1(node01) 机器2(node02) 机器3(node03)
NameNode
DataNode DataNode DataNode
SecondaryNameNode
ResourceManager
NodeManager(NM) NodeManager NodeManager
2.克隆服务器
VMware克隆/复制虚拟机目录
注:机器2/3的MAC地址重新生成(设置->网络适配器->高级->生成)
3.修改网卡并配置
1)修改网卡
vim /etc/udev/rules.d/70-persistent-net.rules
将之前的eth0删除,将新的mac地址对应的eth1变成eth0
2)静态IP
3)设置主机名
4)配置主机名与ip映射关系
4.ntp时间服务器
1)作用
同步三个服务器的时间,让服务器一致
注:机器1当成时间服务器,机器2/3同步机器1时间
2)机器1上配置ntp时间服务器
I.vim etc/sysconfig/ntpd
SYNC_HWCLOCK=yes
II.vim /etc/ntp.conf
#server xxx
server 127.127.1.0
fudge 127.127.1.0 xxx
restrict 192.168.72.0 xxxx
3)机器1重启ntp服务器
server ntpd restart
4)机器1设置时间
date -s yyyy-MM-dd
date -s HH:mm:ss
5)机器2/3同步时间
手动同步:
/usr/sbin/ntpdate <主机名>
定时同步:
crontab -e
0-59/10 * * * * /usr/sbin/ntpdate node01
注:crontab格式:分 小时 天 月 周 <command>
5.hadoop配置文件配置
1)core-site.xml
namenode访问地址
2)hdfs-site.xml
secondarynamenode访问地址
3)yarn-site.xml
resourcemanager访问地
4)slaves文件
从节点的主机名
注:scp -r etc/hadoop root@node02:/export/services/hadoop-2.6.0
scp -r etc/hadoop root@node03:/export/services/hadoop-2.6.0
6.SSH免密登录
1)机器1生成公钥私钥对
ssh-keygen -t rsa
三个回车
2)将公钥发送给机器1/2/3
ssh-copy-id node01
ssh-copy-id node02
ssh-copy-id node03
注:机器2/3执行相同的操作
HDFS管理命令
bin/hdfs dfsadmin命令
<1>-report:查看文件系统的基本信息和统计信息
<2>-safemode enter|leave|get|wait:安全模式
<3>-refreshNodes:重新读取hosts和exclude文件,在新增节点或注销节点时使用
<4>-finalzeUpgrade:终结HDFS的升级操作
<5>-setQuota <quota><dirname>:为每个目录<dirname>设定配额<quota>
<6>-clrQuota <dirname>:为每个目录<dirname>清楚配额设定
HDFS Java API
API文档
http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.14.0/api/index.html
访问入口:FileSystem
<1>创建目录:mkdirs
<2>上传文件:creat/put或copyFromLocalFile
<3>列出目录的内容:listStatus
<4>显示文件或目录的元数据:getFileStatus
<5>下载文件:open/get/或copyToLocalFile
<6>删除文件或目录:delete