Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类、聚类等。 Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能。
下载Mahout,我下载的版本是Mahout0.9:mahout-distribution-0.9.tar.gz
解压:
重命名:
配置环境变量:
使用命令 source/profile 使环境变量立即生效:
验证Mahout是否安装成功:输入myhout,若列出一些算法,则成功
运行一个Mahout实例,从网站下载测试数据,另存为 synthetic_control.data.txt 格式
启动Hadoop,在HDFS上创建文件夹testdata(必须命名为testdata)
然后将 synthetic_control.data.txt 上传至 testdata
运行k-means算法,该算法会启动10个MapReduce Job任务
下面是运行生成的结果:
查看output目录:
完