hadoop与spark的处理技巧（六）聚类算法(1)简介与类型

zoukankan html css js c++ java

hadoop与spark的处理技巧（六）聚类算法(1)简介与类型

一、聚类模型的简介
   实际应用中，无监督的例子非常常见，原因是在许多真实场景中，标注数据
的获取非常困难，代价非常大（比如，人工为分类模型标注训练数据）。但是，我们仍然想要从
数据中学习基本的结构用来做预测。
   在很多情况下，聚类模型等价于分类模型的无监督形式。用分类的方法，我们可以学习分类
模型，预测给定训练样本属于哪个类别。
   在聚类中，我们把数据进行分割，这样每个数据样本就会属于某个部分，称为类簇。类簇相
当于类别，只不过不知道真实的类别。
   聚类模型的很多应用和分类模型一样，比如：
（1）基于行为特征或者元数据将用户或者客户分成不同的组；
（2）对网站的内容或者零售店中的商品进行分组；
（3）找到相似基因的类；
（4）在生态学中进行群体分割；

（5）创建图像分割用于图像分析的应用，比如物体检测。
二、聚类模型的类型
   在Spark2.0版本中（不是基于RDD API的MLlib），共有四种聚类方法：
     （1）K-means
     （2）Latent Dirichlet allocation (LDA)
     （3）Bisecting k-means（二分k均值算法）
     （4）Gaussian Mixture Model (GMM)。
       基于RDD API的MLLib中，共有六种聚类方法：
     （1）K-means
     （2）Gaussian mixture
     （3）Power iteration clustering (PIC)
     （4）Latent Dirichlet allocation (LDA)**
     （5）Bisecting k-means
     （6）Streaming k-means
       多了Power iteration clustering (PIC)和Streaming k-means两种。

查看全文

相关阅读:
报警界面
 09 | 基础篇：怎么理解Linux软中断？
08 | 案例篇：系统中出现大量不可中断进程和僵尸进程怎么办？（下）
07 | 案例篇：系统中出现大量不可中断进程和僵尸进程怎么办？（上）
06 | 案例篇：系统的 CPU 使用率很高，但为啥却找不到高 CPU 的应用？
05 | 基础篇：某个应用的CPU使用率居然达到100%，我该怎么办？
scrapy相关：splash安装 A javascript rendering service 渲染
 MongoDB 及 scrapy 应用
 scrapy相关通过设置 FEED_EXPORT_ENCODING 解决 unicode 中文写入json文件出现`uXXXX`
wb 黑名单批量操作

原文地址：https://www.cnblogs.com/gaohuajie/p/10231896.html