近期笔者想安装mahout,看到网上教程过于陈旧,故记录之
转载请包含 http://www.cnblogs.com/lqruui/p/6037680.html
1、下载mahout mahout-distribution-0.9.tar.gz
2、解压后放到/usr/local/下(实际上放到哪里都可以)
sudo mv mahout-distribution-0.9 /usr/local
3、编辑环境变量
vim ~/.bashrc
环境变量生效
source ~/.bashrc
这是我的环境变量
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export HADOOP_HOME=/usr/local/hadoop export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib" #export HADOOP_HOME_WARN_SUPPRESS=not_null export MAHOUT_HOME=/usr/local/mahout-distribution-0.9 export MAHOUT_CONF_DIR=$HADOOP_HOME/etc/hadoop/ export PATH=$MAHOUT_HOME/conf:$MAHOUT_HOME/bin:$PATH
可以看到已经装完java、hadoop(运行mahout需要hadoop)
4、查看mahout是否安装成功
终端输入mahout
显示mahout算法,安装成功
5、下载数据集进行测试
http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data
下载数据集保存为txt格式放进
进入/usr/local/开启hadoop
cd /usr/local/
创建testdata文件夹,文件名必须是testdata
./bin/hdfs dfs -mkdir testdata
将下载好的数据集synthetic_control.data放进创建好的文件夹里
笔者放在了/home/hadoop/mahout/synthetic_control.data.txt,读者自行更改
./bin/hdfs dfs -put /home/hadoop/mahout/synthetic_control.data.txt testdata
开启hadoop(这里是伪分布模式)
./sbin/start-dfs.sh ./sbin/start-yarn.sh ./sbin/mr-jobhistory-daemon.sh start historyserver
运行kmeans测试mahout
mahout -core org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
到此测试结束,安装mahout成功!!!