mahout:
1.可大规模分布式计算
2.目标对象是程序开发人员
3.与hadoop和lucene有很好的接口
4.是围绕着可扩展的算法和接口特殊设计的
5.命令行和API
6.Apache license
weka:
1.内存消耗厉害
2.目标对象是数据挖掘分析人员
3.有大量的算法集
4.GUI
5.GPL
功能层面,Weka 包含大量经过良好优化的机器学习和数据分析算法,可以处理与格式化、数据转换相关的各种任务,唯一的不足就是它对内存敏感的大数据处理的不好。而Mahout 则为大数据而生,作为一个新生的数据挖掘工具,它所支持的算法与Weka 相比依然很少,相关文档的质量也良莠不齐,但是它的优势在于不仅支持单机环境,还支持MapReduce 分布式计算,能够应对Weka 无法处理的大数据。
性能方面,algorithmia 通过使用两个工具都支持的算法(随机森林)对同一个数据集进行分类做了对比。结果显示,Weka 的最优准确率为99.39%(250 棵树),而Mahout 为95.89%(100 棵树),同时该实验也显示树的数量对Mahout 的分类准确率影响很小