zoukankan      html  css  js  c++  java
  • Python机器学习(二十九)Sklearn 可视化数据:主成分分析(PCA)

    主成分分析(PCA)是一种常用于减少大数据集维数的降维方法,把大变量集转换为仍包含大变量集中大部分信息的较小变量集。

    减少数据集的变量数量,自然是以牺牲精度为代价的,降维的好处是以略低的精度换取简便。因为较小的数据集更易于探索和可视化,并且使机器学习算法更容易和更快地分析数据,而不需处理无关变量。

    总而言之,主成分分析(PCA)的概念很简单——减少数据集的变量数量,同时保留尽可能多的信息。

    使用scikit-learn,可以很容易地对数据进行主成分分析:

    # 创建一个随机的PCA模型,该模型包含两个组件
    randomized_pca = PCA(n_components=2, svd_solver='randomized')
    
    # 拟合数据并将其转换为模型
    reduced_data_rpca = randomized_pca.fit_transform(digits.data)
    
    # 创建一个常规的PCA模型 
    pca = PCA(n_components=2)
    
    # 拟合数据并将其转换为模型
    reduced_data_pca = pca.fit_transform(digits.data)
    
    # 检查形状
    reduced_data_pca.shape
    
    # 打印数据
    print(reduced_data_rpca)
    print(reduced_data_pca)

    输出

    [[ -1.25946586  21.27488217]
     [  7.95761214 -20.76870381]
     [  6.99192224  -9.95598251]
     ...
     [ 10.80128338  -6.96025076]
     [ -4.87209834  12.42395157]
     [ -0.34439091   6.36555458]]
    [[ -1.2594653   21.27488157]
     [  7.95761471 -20.76871125]
     [  6.99191791  -9.95597343]
     ...
     [ 10.80128002  -6.96024527]
     [ -4.87209081  12.42395739]
     [ -0.34439546   6.36556369]]

    随机的PCA模型在维数较多时性能更好。可以比较常规PCA模型与随机PCA模型的结果,看看有什么不同。

    告诉模型保留两个组件,是为了确保有二维数据可用来绘图。

    现在可以绘制一个散点图来可视化数据:

    colors = ['black', 'blue', 'purple', 'yellow', 'white', 'red', 'lime', 'cyan', 'orange', 'gray']
    
    # 根据主成分分析结果绘制散点图
    for i in range(len(colors)):
        x = reduced_data_rpca[:, 0][digits.target == i]
        y = reduced_data_rpca[:, 1][digits.target == i]
        plt.scatter(x, y, c=colors[i])
    
    # 设置图例,0-9用不同颜色表示
    plt.legend(digits.target_names, bbox_to_anchor=(1.05, 1), loc=2, borderaxespad=0.)
    # 设置坐标标签
    plt.xlabel('First Principal Component')
    plt.ylabel('Second Principal Component')
    # 设置标题
    plt.title("PCA Scatter Plot")
    
    # 显示图形
    plt.show()

    显示:

    图

  • 相关阅读:
    Android自动化测试框架UIAutomator原理浅析
    UiAutomator和Appium之间的区别2
    UiAutomator、UiAutomator2、Bootstrap的关系
    好的博客和网站
    appium介绍和工作原理
    UiAutomator1.0 与 UiAutomator2.0
    Jenkins之配置GitHub-Webhook2
    jenkins部署github项目持续集成
    Windows下安装的Jenkins修改默认端口号8080(修改配置文件的方式)
    Git使用教程
  • 原文地址:https://www.cnblogs.com/huanghanyu/p/13158596.html
Copyright © 2011-2022 走看看