MLlib 编程指导-spark-1.2.0

zoukankan html css js c++ java

MLlib 编程指导-spark-1.2.0
本文来自 http://spark.apache.org/docs/latest/mllib-guide.html 官方文档翻译个人翻译

MLlib包括的算法和工具主要有：分类，回归，聚类，协同过滤，降维，和底层优化原语：
- 数据类型
- 基本统计
  
  总和统计
  
  相关性
  
  分层抽样
  
  假设检验
  
  随机数生成
- 分类和回归
  
  线性模型（SVM，逻辑回归，线性回归）
  
  朴素贝叶斯
  
  决策树
  
  ensembles of trees (随机森林和Gradient-Boosted树)
- 协同过滤
  
  最小二乘法（ALS）
- 聚类
  
  k-means
- 降维
  
  singular value decomposition (SVD)
  
  principal component analysis (PCA)
- 特征提取和转换
- 优化（开发者）
依赖

MLlib使用线性代数包Breeze，他依赖netlib-java和jblas。netlib-java和jblas依赖原生的Fortran程序。如果你的节点中没有这些库，你也许会需要安装 gfortran runtime library。如果程序没有办法自动检测到这些库，MLlib 将会抛出链接错误的异常。由于许可原因，MLlib的默认依赖结合不包含netlib-java的原始库，运行时会出现一些警告信息。为了使用netlib-java的原始库，请在构建spark时使用-Pnetlib-lgpl或者包含com.github.fommil.netlib:all:1.1.2依赖。如果想使用想OpenBLAS这种BLAS/LAPACK优化库，需要连接/usr/lib/libblas.so.3 and /usr/lib/liblapack.so.3。worker节点上的BLAS/LAPACK libraries在build是不是用多线程。

如果想用 Python 调用 MLlib,你需要安装 NumPy 1.4 或者更新的版本。
查看全文

相关阅读:
剑指offer二十九---最小的k个数
 Select2插件点击、选中事件解读
 Datatable插件的简单的使用方式和学习方式
 java map获取值方式
 mysql delete语句使用别名报错
 springmvc 添加@ResponseBody
maven 创建后报错
 nodejs
gulp
Nodejs-express 4.0框架简单介绍

原文地址：https://www.cnblogs.com/lemonqin/p/4174104.html

最新文章
js 闭包
 原型设计
 案例分析
 编程作业3
准备工作
 阅读任务
 期末总结
 十四周总结
 十三周总结
 十二周总结

MLlib 编程指导-spark-1.2.0

依赖