zoukankan      html  css  js  c++  java
  • 机器学习基础6--集群模型和算法

    案例:

      现在手上有许多的文档,需要将其按照类型(体育,财经,科技等)进行分类,也就是对文章进行分组或聚类.

    分析:

      如果手上有已经标记过类型的数据,可以将其作为训练集进行学习.

      那么这是否是一个多元分类问题?

    其实是监督学习问题

    现在我们有一堆无标签的文档,打算推断出相关文章的分组向量.

      Input:文档向量

      Output:集群标签

    这是一个无监督学习任务.

    怎样去定义一个集群:

      集群用中心和形状来定义.

    以形状来判断,上方1号点明显应属于椭圆形集群.而若是以距离来看,2号点明显属于圆形集群.

    聚类算法:k-means

      k均值算法(k-means):固定k个集群,看每个集群的平均值.只考虑集群中心,以此来将数据点分不到不通的集群中.

    步骤:

    1.初始化集群中心

    2.把所有数据点分给离它最近的集群中心.(沃罗诺伊镶嵌算法)

    3.将聚类中心修改为指定的观测值的平均值.

    4.重复前面的步骤,直到结果收敛.

     


    其他的例子:

      1.图像分类

      2.疾病分类

      3.商品分类

      4.网页搜索优化

      5.房价预测

      6.预测犯罪率

    end


    课程:机器学习基础:案例研究(华盛顿大学)

    视频链接: https://www.coursera.org/learn/ml-foundations/lecture/EPR3S/clustering-documents-task-overview

    week4 Clustering models and algorithms

  • 相关阅读:
    把旧表中数据加入到新表中
    mysql字段-创建时间与更新时间
    springboot-maven依赖源
    刚刚下载的IDEA打不开
    matplotlib-实战01
    实战1-数据清理
    python函数(三)
    交换机配置DHCP中继
    python函数(二)
    用事实说话
  • 原文地址:https://www.cnblogs.com/redheat/p/9287970.html
Copyright © 2011-2022 走看看