大部分参考http://dblab.xmu.edu.cn/blog/install-hadoop/
1、hadoop2和3都支持java8,我们先安装java8
只要下载后直接解压到/usr/lib/jvm,一般usr/lib用来存放库,比如java python都放这里
2、配置一个用户名hadoop,之后用来运行hadoop,
注意,之后我们安装好hadoop,如果要使用伪分布式,就需要使用hadoop这个账号,来ssh localhost,并且需要需要修改配置文件,指定我们要使用的账号
vim /usr/local/hadoop/libexec/hdfs-config.sh.
export HDFS_NAMENODE_USER=hadoop
export HDFS_DATANODE_USER=hadoop
export HDFS_SECONDARYNAMENODE_USER=hadoop
export YARN_RESOURCEMANAGER_USER=hadoop
export YARN_NODEMANAGER_USER=hadoop
3、安装hadoop
只要直接解压即可,但是有几个要点,
1记得改名把hadoop-3.2.2改为hadoop
2 修改文件夹权限
- sudo tar -zxf ~/下载/hadoop-2.6.0.tar.gz -C /usr/local # 解压到/usr/local中
- cd /usr/local/
- sudo mv ./hadoop-2.6.0/ ./hadoop # 将文件夹名改为hadoop
- sudo chown -R hadoop ./hadoop
3 hadoop3需要手动指定JAVA_HOME,所以需要vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh
添加一行export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_162
4、格式化
cd /usr/local/hadoop
./bin/hdfs namenode -format
然后运行程序
cd /usr/local/hadoop
./sbin/start-dfs.sh
记得不要提前ssh localhost,这个是hadoop自己连的,我们已经配置好。运行的时候记得sudo
安装spark 参考http://dblab.xmu.edu.cn/blog/1689-2/
如果要使用python3.6, spark版本建议使用3.0
https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.0.1/
apache 的安装包可以使用清华镜像