zoukankan      html  css  js  c++  java
  • 4.K均值算法--应用

    1. 应用K-means算法进行图片压缩

    读取一张图片

    观察图片文件大小,占内存大小,图片数据结构,线性化

    用kmeans对图片像素颜色进行聚类

    获取每个像素的颜色类别,每个类别的颜色

    压缩图片生成:以聚类中收替代原像素颜色,还原为二维

    观察压缩图片的文件大小,占内存大小

    from sklearn.datasets import load_sample_image
    from sklearn.cluster import KMeans
    import matplotlib.pyplot as plt
    import matplotlib.image as img
    import sys
    import numpy as np
    
    picture = img.imread("C://Users/lucas-lyw/Desktop/Lyw/sky.jpg")  # 读取自己准备的图片
    print("图片的大小:", picture.size)
    print("图片占用的内存:", sys.getsizeof(picture))
    print("图片的数据结构:
    ", picture)
    plt.rcParams['font.sans-serif'] = ['SimHei']
    plt.imshow(picture)  # 显示图片
    plt.show()
    
    image = picture[::3,::3]  # 降低图片3倍的分辨率
    x = image.reshape(-1,3)
    print(image.shape,x.shape,picture.shape)
    
    n_colors = 45
    model = KMeans(n_colors)  # 对颜色进行聚类
    labels = model.fit_predict(x)  # 获取每个像素的颜色类别
    colors = model.cluster_centers_  # 每个类别的颜色
    new_image = colors[labels].reshape(image.shape)
    # 压缩图片
    plt.imshow(new_image.astype(np.uint8))
    plt.show()
    # 二次压缩图片
    plt.imshow(new_image.astype(np.uint8)[::3, ::3])
    plt.show()
    

    运行结果:

    原图:

     

    第一次压缩:

    第二次压缩:

    2. 观察学习与生活中可以用K均值解决的问题

    from sklearn.cluster import KMeans
    import numpy as np
    import pandas as pd
    import matplotlib.pyplot as plt
    from sklearn.model_selection import train_test_split
    
    data = pd.read_csv('./data/house.csv',index_col=0)
    
    #x = data.iloc[:,[2,7]].astype('int')
    #x = np.array(x)
    x = data.iloc[: ,[2]] #获取“总价”
    y = data.iloc[:,[7]]  #面积
    x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.2,random_state=5) #划分成功
    
    km_model = KMeans(n_clusters=3)
    km_model.fit(x)
    y_kmeans= km_model.predict(x)
    
    # price_high=np.array(data[y_kmeans==2]['总价'])
    # price_mid=np.array(data[y_kmeans==1]['总价'])
    # price_low=np.array(data[y_kmeans==0]['总价'])
    
    plt.rcParams['font.sans-serif'] = 'SimHei'  # 设置中文显示
    plt.xlabel('总价')
    plt.ylabel('面积')
    plt.title("总价与面积的关系如下:")
    plt.scatter(x_test,y_test,s=60,c='blue')
    

    运行结果:

  • 相关阅读:
    [转]NopCommerce MVC 插件机制分析
    压力测试的轻量级具体做法[转载]
    导入IP安全策略图解
    Grunt使用心得
    解决yarn管理资源管理,其他应用起不来
    Spark 读取mysql中的数据
    Spark 配置连接hive 元数据库(mysql)
    Linux安装anaconda和集成PySpark
    python(配置)
    Python 数据爬取(环境变量)
  • 原文地址:https://www.cnblogs.com/lywkkk/p/12732462.html
Copyright © 2011-2022 走看看