zoukankan      html  css  js  c++  java
  • sklearn.manifold.TSNE可视化高位数据工具

    manifold learning流形学习

    多维度数据集非常难于可视化。反而2维或者3维数据很容易通过图表展示数据本身的内部结构,等价的高维绘图就远没有那么直观了。为了实现数据集结构的可视化,数据的维度必须通过某种方式降维。

    最简单的降维手段是数据的随机投影。虽然这种方式实现一定程度的数据结构可视化,但是选择的随意性导致结果远不如意。在随机投影中,更有趣的结构容易丢失。

    ​ 为了解决这种问题,人们设计了一系列监督或非监督的线性降维框架,例如Principal Component Analysis(PCA,主成分分析)、Independent Component Analysis(独立成分分析)、 Linear Discriminant Analysis(线性判别分析)…这些算法定义了特殊的评估量用于多维数据选择有趣的线性投影,这些手段是有效的,不过经常会错失数据结构中的非线性项。

    ​ Manifold Learing是一种非线性降维的手段,可以看作一种生成类似PCA的线性框架,不同的是可以对数据中的非线性结构敏感。虽然存在监督变体,但是典型的流式学习问题是非监督的:它从数据本身学习高维结构,不需要使用既定的分类

    t-SNE 

    是可视化高维数据的工具。它将数据点之间的相似性转换为联合概率,并尝试最小化低维嵌入和高维数据的联合概率之间的Kullback-Leibler差异。t-SNE的成本函数不是凸的,即使用不同的初始化,我们可以获得不同的结果。

    如果特征的数量非常多,强烈建议使用另一种降维方法(例如,对于密集数据使用PCA或对于稀疏数据使用TruncatedSVD)将尺寸数量减少到合理的数量(例如50个)。这将抑制一些噪声并加快样本之间成对距离的计算。有关更多技巧

    用法

    反正只需要了解这个函数的大概用途是将特征弄成一坨,变成一个变量,然后和聚类后的label画图就OK了,具体原理细节,暂时不深究

    class sklearn.manifold.TSNE(n_components=2, *, perplexity=30.0, early_exaggeration=12.0, learning_rate=200.0, 
    n_iter=1000, n_iter_without_progress=300, min_grad_norm=1e-07, metric='euclidean', init='random', verbose=0,
    random_state=None, method='barnes_hut', angle=0.5, n_jobs=None)

    参数什么的请参考官方文档:https://scikit-learn.org/stable/modules/generated/sklearn.manifold.TSNE.html

    这里主要看一些怎么使用

    import numpy as np
    import matplotlib.pyplot as plt
    import pandas as pd
    from sklearn.datasets import load_iris
    from sklearn.cluster import KMeans
    
    X=load_iris().data
    kmeans = KMeans(n_clusters=3,random_state=0)
    kmeans.fit(X)
    
    labels = kmeans.labels_
    labels = pd.DataFrame(labels,columns=['labels'])
    X=pd.DataFrame(X)
    X.insert(4,'labels',labels)
    
    from sklearn.manifold import TSNE
    tsne = TSNE()
    a = tsne.fit_transform(X)
    liris = pd.DataFrame(a,index=X.index)
    
    d1 = liris[X['labels']==0]
    #plt.plot(d1[0],d1[1],'r.')
    d2 = liris[X['labels']==1]
    #plt.plot(d2[0],d2[1],'go')
    d3 = liris[X['labels']==2]
    #plt.plot(d3[0],d3[1],'b*')
    plt.plot(d1[0],d1[1],'r.',d2[0],d2[1],'go',d3[0],d3[1],'b*')

  • 相关阅读:
    linux下tomcat内存溢出
    leetcode
    HDU 4810 Wall Painting (位操作-异或)
    详解Java中的访问控制修饰符(public, protected, default, private)
    mpvue开发微信小程序之时间+日期选择器
    多行文本溢出隐藏
    swift 多态函数方式
    swift 多态函数方式
    swift 多态函数方式
    swift 多态函数方式
  • 原文地址:https://www.cnblogs.com/cgmcoding/p/14072237.html
Copyright © 2011-2022 走看看