hadoop四大模块:
common //hadoop核心类库
hdfs //分布式存储模块
mapreduce //分布式计算模块
yarn //资源调度模块
hadoop相关端口:
hdfs:
namenode(50070) //名称节点
datanode(50075) //数据节点
secondarynamenode(50090) //辅助名称节点
yarn:
resourcemanager(8088) //资源管理器
nodemanager //节点管理器
hadoop基本命令:
hdfs dfs -ls / //列出所有文件
hdfs dfs -lsr / //递归列出所有文件
hdfs dfs -mkdir -p /user //创建文件夹
hdfs dfs -touchz 1.txt //创建文件
hdfs dfs -put 1.txt /user //上传文件到指定目录
hdfs dfs -get /user //从hdfs下载文件
hdfs dfs -rm /1.txt //删除文件
hdfs dfs -rmr /user //递归删除
体验mapreduce:
1、创建文本文件1.txt
2、hdfs dfs -put 1.txt /
3、hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /1.txt /out
4、hdfs dfs -cat /out/part-r-00000
使用虚拟机hadoop完全分布式搭建:
1、使用链接克隆:
所有使用此克隆的客户机,都相当于对原客户机的引用,并在此基础上创建自己的修改
2、修改主机名和静态ip(s101-s104)
主机名:sudo nano /etc/hostname
ip: sudo nano /etc/sysconfig/network-scripts/ifcfg-ens33
修改完成之后重启客户机
3、修改ssh(s101-s104)
删除~/.ssh文件夹: rm -rf ~/.ssh
4、新建ssh公私秘钥对(s101)
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa -t是指定加密算法rsa, -P是指定密码 -f指定文件名:~/.ssh/id_rsa
5、修改hosts文件(s101)
ip地址+ s100
ip+ s101
ip s102
ip s103
ip s104
6、使用命令生成认证key(s101)
ssh-copy-id centos@s101
7、配置s102-s104免密登录(s101)
ssh-copy-id centos@s102
ssh-copy-id centos@s103
ssh-copy-id centos@s104
8、配置root用户的ssh免密登录
9、将s101的hosts文件分发到其他节点
scp 101.txt centos@s102:~
#!/bin/bash
user=`whoami`
for (( i=102 ; i<=104 ; i++ )) ; do
scp $1 $user@s$i:$2
done
12、配置文件
重新链接目录
./xcall.sh ln -sfT /soft/hadoop/etc/full/ /soft/hadoop/etc/hadoop
拷贝伪分布式配置文件
cp ${HADOOP_HOME}/etc/pseudo/* ${HADOOP_HOME}/etc/full/
修改slaves文件(从节点的主机名)
s102
s103
s104
修改hdfs-site.xml,将副本数从1改为3
修改临时目录(工作目录),修改core-site.xml,添加如下配置
<property>
<name>hadoop.tmp.dir</name>
<value>/home/centos/hadoop/full</value>
</property>
core-site.xml和yarn-site.xml中的s100要改成s101
13、分发配置文件
xsync.sh /soft/hadoop/etc
14、格式化hadoop文件系统
hdfs namenode -format