zoukankan      html  css  js  c++  java
  • 数据预处理之数据可视化

    数据可视化可以帮助我们理解数据:查看数据的分布情况,观察有没有异常值,各个变量之间的相关情况。

    当我们进行数据可视化的时候,我们要紧紧围绕着这个变量和我们的目标变量之间的关系,在绘制大多数图的时候都要出现目标变量。

    连续型数据的可视化:

      对于连续的数值类型数据,我们常常使用直方图(histogram)来进行描述信息,将连续的数据分成一个个的bin。plt.hist和seaborn中的distplot可以进行直方图的绘制。使用核密度估计kedplot可以查看概率密度的情况。

      无论是单独的观察连续的数值类型信息,还是结合其他的分类数据观察数值类型的信息,使用直方图是免不了的。使用直方图可以让我们发现数据的分布情况,一般为正太分布,继而能够看到数据的偏度和峰度情况,在这个情况上可以做进一步的决策,比如是否对数据进行标准化等。假如各个段的信息分布是有差别的,那么是否对连续数据进行分组操作。

      对于连续变量,也可以使用箱形图(boxplot)还有小提琴图(violinplot),前者可以发现数据中的异常点,中位数等信息。后者可以看中位数,还有数据分布的概率密度情况。

    连续变量和连续变量结合:

      这个时候可以使用散点图(scatter)来看它们之间的关系,从散点图里面能够看出一些信息,比如是不是线性相关,或者是呈现指数分布。另外还可以从中发现出来一些异常点。

    连续变量和分类变量结合

      连续变量和分类变量结合的时候,假如不是只使用连续变量的某类信息,(比如只使用连续变量的均值作为一个轴上面的信息),那么还是要使用上述连续变量所使用的几种图形的。这个时候通常将分类变量当做一个坐标轴上的一个个取值,在这个取值下面观察连续变量的分布情况。比如分类变量作为x轴,y轴用箱形图观察变量的分布。

    分类变量

    对于分类变量,可以使用条形图(barplot), 点图(pointplot),观察他们之间的关系。观察分类变量和目标变量之间的关系。在绘图的时候,分类变量通常要和分类变量结合,或者和连续变量结合,同时看好几个变量结合起来的情况。

    查看整体情况

    对于很多变量,有没有一些方法来查看这些变量之间的整体情况,或者两两变量之间的关系?这个时候可以使用pairplot和heatmap(热图)来进行查看。前者可以查看到两个变量的分布情况,后者可以查看到变量之间的相关性。

    问题与总结:

    上面写的就是当我们观察各个变量的时候使用的一般策略。在进行变量观察的时候,难的不是画图这个动作,而是决定看哪些变量与哪些变量之间的关系,以及以及如何进行观察。选择的变量和观察方式不同,我们能够得到的结论就不同。

  • 相关阅读:
    python-正则表达式
    python-定制类
    阿里云全新发布云市场能力中心,招募10个领域、500家供应商
    《DNS攻击防范科普系列3》 -如何保障 DNS 操作安全
    《DNS攻击防范科普系列2》 -DNS服务器怎么防DDoS攻击
    《DNS攻击防范科普系列1》—你的DNS服务器真的安全么?
    云栖干货回顾 |“顶级玩家”集结!分布式数据库专场精华解读
    AnalyticDB for PostgreSQL 6.0 新特性介绍
    云栖干货回顾 | 云原生数据库POLARDB专场“硬核”解析
    从零开始入门 K8s | 可观测性:你的应用健康吗?
  • 原文地址:https://www.cnblogs.com/jiaxin359/p/8615502.html
Copyright © 2011-2022 走看看