zoukankan      html  css  js  c++  java
  • hadoop与spark的处理技巧(六)聚类算法(1)简介与类型

    一、聚类模型的简介
        实际应用中,无监督的例子非常常见,原因是在许多真实场景中,标注数据
    的获取非常困难,代价非常大(比如,人工为分类模型标注训练数据)。但是,我们仍然想要从
    数据中学习基本的结构用来做预测。
        在很多情况下,聚类模型等价于分类模型的无监督形式。用分类的方法,我们可以学习分类
    模型,预测给定训练样本属于哪个类别。
        在聚类中,我们把数据进行分割,这样每个数据样本就会属于某个部分,称为类簇。类簇相
    当于类别,只不过不知道真实的类别。
        聚类模型的很多应用和分类模型一样,比如:
    (1)基于行为特征或者元数据将用户或者客户分成不同的组;
    (2)对网站的内容或者零售店中的商品进行分组;
    (3)找到相似基因的类;
    (4)在生态学中进行群体分割;

    (5)创建图像分割用于图像分析的应用,比如物体检测。
    二、聚类模型的类型    
        在Spark2.0版本中(不是基于RDD API的MLlib),共有四种聚类方法:
         (1)K-means
         (2)Latent Dirichlet allocation (LDA)
         (3)Bisecting k-means(二分k均值算法)
         (4)Gaussian Mixture Model (GMM)。
           基于RDD API的MLLib中,共有六种聚类方法:
         (1)K-means
         (2)Gaussian mixture
         (3)Power iteration clustering (PIC)
         (4)Latent Dirichlet allocation (LDA)**
         (5)Bisecting k-means
         (6)Streaming k-means
           多了Power iteration clustering (PIC)和Streaming k-means两种。

  • 相关阅读:
    阻止事件传播的常用方法
    原生JS获取元素的位置与尺寸
    FileReader 与canvas结合使用显示图片
    dot.js使用心得
    时间格式转换
    JS对象操作
    vue-awesome-swipe 基于vue使用的轮播组件 使用(改)
    vscode 插件推荐
    chrome 发送请求出现:Provisional headers are shown 提示
    手机端
  • 原文地址:https://www.cnblogs.com/gaohuajie/p/10231896.html
Copyright © 2011-2022 走看看