Apache Mahout的机器学习库的目标是建立可扩展的机器学习库
可扩展到相当大的数据集。 我们的核心算法,聚类,分类和批量基于协同过滤的实现Apache Hadoop之上使用的map / reduce范式。 但是,我们并不限制基于Hadoop的实现贡献:贡献单个节点或在非Hadoop集群上运行的欢迎。 核心库进行了高度优化,以获得较好的性能也非分布式算法
可扩展性,以支持您的业务情况。 Mahout的是一个商业友好的Apache软件许可下分发。
目前Mahout的主要支持四个用例:建议挖掘用户的行为,并试图找到用户可能会喜欢的项目。 聚类例如文本文件,然后将它们成组主题相关的文档。 从分类学的重新审视和分类文件记录一个特定类别的样子,未标记的文件能够分配到正确的类别(希望)。 频繁项集挖掘项目组采用一组(查询会话中,购物车的内容),并确定,其中个别项目通常一起出现。- 共同筛选
- 用户和基于项目的引荐人
- K均值,模糊K-均值聚类
- 均值漂移聚类
- Dirichlet过程聚类
- 潜在狄利克雷分配
- 奇异值分解
- 并行频繁模式挖掘
- 互补朴素贝叶斯分类
- 随机森林基于决策树分类
- 高性能的Java集合
http://mahout.apache.org/
可以和hadoop良好的结合
http://opennlp.apache.org/
OpenNLP库是基于机器学习工具包,用于处理自然语言文本。