zoukankan      html  css  js  c++  java
  • 3.K均值算法

    1). 扑克牌手动演练k均值聚类过程:>30张牌,3类

    2). *自主编写K-means算法 ,以鸢尾花花瓣长度数据做聚类,并用散点图显示。(加分题)

    from sklearn.datasets import load_iris
    import numpy as np
    import matplotlib.pyplot as plt
    # 数据准备
    iris = load_iris()
    data = iris.data[:, 1]  # 获取鸢尾花花瓣长度
    k = 3    # 类中心个数
    n = len(data)  # 样本个数
    center = np.random.choice(data, k)   # 随机选取data中的k个数据初始类中心
    dist = np.zeros(n)   # 每个样本到类中心的距离
    new_center = np.zeros(k)  # 新的类中心
    d = np.zeros(k)  # 定义一个存放距离的数组
    while True:
    # 求距离
        for i in range(n):
            for j in range(k):
                d[j] = (abs(center[j] - data[i]))   # 计算到中心的距离
            # 聚类
            dist[i] = np.argmin(d)
    
        # 求新类中心
        for c in range(k):
            index = dist == c
            new_center[c] = np.mean(data[index])
        #判定结束
        if np.all(center == new_center):
            break
        else:
            center = new_center
    print('最终聚类结果:', dist)
    
    # 散点图
    plt.scatter(data, data, c=dist, s=50, cmap="Wistia")
    plt.show()
    

     运行结果:

    3). 用sklearn.cluster.KMeans,鸢尾花花瓣长度数据做聚类,并用散点图显示.

    from sklearn.datasets import load_iris
    import matplotlib.pyplot as plt
    from sklearn.cluster import KMeans
    iris = load_iris()
    data = iris.data[:, 1]
    x = data.reshape(-1, 1)
    x.shape
    est = KMeans(n_clusters=3)
    est.fit(x)
    y = est.predict(x)
    plt.scatter(x[:, 0], x[:, 0], c=y, s=50, cmap="Wistia")
    plt.show()
    

      运行结果:

     4). 鸢尾花完整数据做聚类并用散点图显示.

    from sklearn.datasets import load_iris
    import matplotlib.pyplot as plt
    from sklearn.cluster import KMeans
    iris = load_iris()
    data = iris.data
    est = KMeans(n_clusters=3)
    est.fit(data)
    y = est.predict(data)
    plt.scatter(data[:, 2], data[:, 3], c=y, s=50, cmap="rainbow")
    plt.show()
    

      

     5).想想k均值算法中以用来做什么?

    利用K均值算法实现图像压缩,所谓图像压缩指的是在图像像素方面的处理。

  • 相关阅读:
    c语言进阶2-变量的作用域与无参函数
    《Linux 性能及调优指南》3.2 CPU瓶颈
    《Linux 性能及调优指南》3.1 确认瓶颈
    马哥Linux base学习笔记
    《Linux 性能及调优指南》1.6 了解Linux性能指标
    Linux性能及调优指南1.2之Linux内存架构
    《Linux 性能及调优指南》1.1 Linux进程管理
    分布式系统的Raft算法
    《马哥出品高薪linux运维教程》wingkeung学习笔记-linux基础入门课程
    Systemd 入门教程:实战篇
  • 原文地址:https://www.cnblogs.com/lywkkk/p/12711512.html
Copyright © 2011-2022 走看看