最近在学习hadoop,自己下了个视频教程,他的教学版本是hadoop0.20.2版本,现在的最新版本都到了3.0了,版本虽然有点老,但是还是学了一下,觉得有借鉴的价值。
不废话了,开始介绍:
先说一下环境:ubuntu14.04,其中要装上ssh open-server服务,装上jdk环境。
伪分布式模式安装和配置步骤如下图:
详细步骤
1 首先把文件导入linux系统(我用的ubuntu虚拟机,hadoop-0.20.2.tar.gz安装包放在了桌桌面)。首先把这个安装包放在/opt目录下,并解压:
2 配置相关文件
hadoop-env.sh文件配置(版本不同,文件位置可能不一样,hadoop0.20.2在/conf下)
core-site.xml (/conf下)
修改hdfs-site.xml
hdfs-site.xml配置文件中还有其他一些配置,此次配置没有用到,如下图:
mapred-site.xml配置
下图是mapred-site.xml其他一些配置,此次没用到,列到这里:
注意:由于我布置的是伪分布式,只有一个节点(即本机),所以core-site.xml和mapred-site.xml两个配置文件中的相关ip地址是localhost,如果完全分布式部署,是要写相应的IP的。另外,9000和9001是hadoop缺省端口,一般没必要修改。
ssh设置
首先进入/root
然后按照下图输入(让每个节点之间互通免密码)
这样就大功告成啦!!!
完全分布式安装大致步骤如下:
1 配置host文件
2 简历hadoop运行账号
3 配置ssh免密码连接
4 下载hadoop并解压
5 配置namenode,修改site文件
6 配置hadoop-env.sh
7 配置master和slaves文件
8 向各节点复制hadoop
9 格式化namenode
10 启动hadoop
11 用jps检查阁后台进程是否成功启动
后续:以上都是基于hadoop0.20.2版本的,属于比较过时的东西,推荐一个大神总结的hadoop2.6.0的安装和配置,写的很详细,而且也是正确的。
地址链接:http://blog.csdn.net/LLy_Alex/article/details/50759669
hadoop2.6.0安装完成后,会出现一系列问题,下面强烈推荐一个大神博主微博:http://blog.csdn.net/congcong68/article/details/42043093