1. 下载mahout-distribution-0.5.tar.gz 并解压;
2.配置环境变量: /etc/profile
export MAHOUT_HOME=/home/mahout/ export PATH=$MAHOUT_HOME/bin:$PATH
3. 启动hadoop
start-all.sh
4. mahout -help 测试
5. kmeans测试:
(1)下载一个文件synthetic_control.data,下载地址http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data。
(2)创建测试目录testdata,并把数据导入到这个tastdata目录中(这里的目录的名字只能是testdata)
hadoop@ubuntu:~$ hadoop fs -mkdir testdata # hadoop@ubuntu:~$ hadoop fs -put /home/hadoop/mahout-distribution-0.7/synthetic_control.data testdata
(3)使用kmeans算法
hadoop@ubuntu:~/$ hadoop jar mahout/mahout-examples-0.5-job.jar org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
(4) 查看结果
hadoop@ubuntu:~/$ hadoop fs -lsr output