zoukankan      html  css  js  c++  java
  • 4.K均值算法--应用

    1、 应用K-means算法进行图片压缩

      读取一张图片

      观察图片文件大小,占内存大小,图片数据结构,线性化

      用kmeans对图片像素颜色进行聚类

      获取每个像素的颜色类别,每个类别的颜色

      压缩图片生成:以聚类中收替代原像素颜色,还原为二维

      观察压缩图片的文件大小,占内存大小

    代码:

    from sklearn.datasets import load_sample_image
    from sklearn.cluster import KMeans
    import matplotlib.pyplot as plt
    import sys
    import matplotlib.image as img
    import numpy as np
    
    # 读取一张图片
    image = img.imread("./wh1.jpg")
    print('原图片文件大小:', image.size)
    print('原图片占内存大小:', sys.getsizeof(image))
    print('原图片的数据结构:
    ', image)
    
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.title("原图片")
    plt.imshow(image)
    plt.show()

    结果:

    # 用kmeans对图片像素颜色进行聚类
    image = image[::3, ::3]  
    X = image.reshape(-1, 3)
    print(image.shape, X.shape)
    n_colors = 64
    model = KMeans(n_colors)
    labels = model.fit_predict(X)
    colors = model.cluster_centers_  
    
    new_image = colors[labels].reshape(image.shape)  
    print('压缩图片文件大小:', new_image.size)
    print('压缩图片占内存大小:', sys.getsizeof(new_image))
    print('压缩图片的数据结构:
    ', new_image)
    img.imsave('D://机器学习/2.jpg', new_image)

    结果:

     压缩前后大小对比:

    plt.title("压缩图片")
    plt.imshow(new_image.astype(np.uint8))  
    plt.show()
    
    plt.title("二次压缩图片")
    plt.imshow(new_image.astype(np.uint8)[::3, ::3])  
    plt.show()

    结果:

      2. 观察学习与生活中可以用K均值解决的问题。

    用K均值解决,二手奔驰车某车型价格与上牌年份和表显里程的关系,从而更加直观的去选择购买车辆。

    import numpy as np
    import matplotlib.pyplot as plt
    from sklearn.cluster import KMeans
    import pandas as pd
    
    che = pd.read_csv('201706120008王华 已处理.csv', index_col=0) 
    data1 = che[che['车辆型号'] == '奔驰S级'] 
    test_data = data1[['上牌年份', '表显里程', '价格']]  
    data = np.array(test_data)  
    
    model = KMeans(n_clusters=3)  
    model.fit(data)
    y = model.predict(data)  
    model.cluster_centers_
    
    a = []
    b = []
    c = []
    d = []
    
    for i in range(len(data)):
        if y[i] == 0:
            a.append(data[i, :])
            a1 = np.array(a)
        elif y[i] == 1:
            b.append(data[i, :])
            b1 = np.array(b)
        else:
            c.append(data[i, :])
            c1 = np.array(c)
    
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.scatter(a1[:, 1], a1[:, 0], s=55, c='#ed1941', marker="*")  
    plt.scatter(b1[:, 1], b1[:, 0], s=50, c='#84bf96', marker="o")  
    plt.scatter(c1[:, 1], c1[:, 0], s=50, c='#e0861a', marker="v") 
    
    plt.legend(['中价车', '高价车', '低价车'])
    plt.ylabel("上牌年份")
    plt.xlabel("表显里程")
    plt.title("二手奔驰S级价格与上牌年份和表显里程的关系")
    plt.show()

    结果:

    获取到奔驰S级的数据:

     可视化关系图:

  • 相关阅读:
    python中字典dict pop方法
    Markdown 学习资源
    Windows bat 设置代理
    Warning: Permanently added '...' (RSA) to the list of known hosts --Windows下git bash 警告处理
    subilme增加对markdown的高亮支持
    ubuntu笔记1
    Sublime Python 插件配置合集
    Excel VBA 快捷键 代码
    贩卖守望先锋账号
    如何用VS2017用C++语言写Hello world 程序?
  • 原文地址:https://www.cnblogs.com/wh008/p/12732965.html
Copyright © 2011-2022 走看看