zoukankan      html  css  js  c++  java
  • 数据预处理之数据可视化

    数据可视化可以帮助我们理解数据:查看数据的分布情况,观察有没有异常值,各个变量之间的相关情况。

    当我们进行数据可视化的时候,我们要紧紧围绕着这个变量和我们的目标变量之间的关系,在绘制大多数图的时候都要出现目标变量。

    连续型数据的可视化:

      对于连续的数值类型数据,我们常常使用直方图(histogram)来进行描述信息,将连续的数据分成一个个的bin。plt.hist和seaborn中的distplot可以进行直方图的绘制。使用核密度估计kedplot可以查看概率密度的情况。

      无论是单独的观察连续的数值类型信息,还是结合其他的分类数据观察数值类型的信息,使用直方图是免不了的。使用直方图可以让我们发现数据的分布情况,一般为正太分布,继而能够看到数据的偏度和峰度情况,在这个情况上可以做进一步的决策,比如是否对数据进行标准化等。假如各个段的信息分布是有差别的,那么是否对连续数据进行分组操作。

      对于连续变量,也可以使用箱形图(boxplot)还有小提琴图(violinplot),前者可以发现数据中的异常点,中位数等信息。后者可以看中位数,还有数据分布的概率密度情况。

    连续变量和连续变量结合:

      这个时候可以使用散点图(scatter)来看它们之间的关系,从散点图里面能够看出一些信息,比如是不是线性相关,或者是呈现指数分布。另外还可以从中发现出来一些异常点。

    连续变量和分类变量结合

      连续变量和分类变量结合的时候,假如不是只使用连续变量的某类信息,(比如只使用连续变量的均值作为一个轴上面的信息),那么还是要使用上述连续变量所使用的几种图形的。这个时候通常将分类变量当做一个坐标轴上的一个个取值,在这个取值下面观察连续变量的分布情况。比如分类变量作为x轴,y轴用箱形图观察变量的分布。

    分类变量

    对于分类变量,可以使用条形图(barplot), 点图(pointplot),观察他们之间的关系。观察分类变量和目标变量之间的关系。在绘图的时候,分类变量通常要和分类变量结合,或者和连续变量结合,同时看好几个变量结合起来的情况。

    查看整体情况

    对于很多变量,有没有一些方法来查看这些变量之间的整体情况,或者两两变量之间的关系?这个时候可以使用pairplot和heatmap(热图)来进行查看。前者可以查看到两个变量的分布情况,后者可以查看到变量之间的相关性。

    问题与总结:

    上面写的就是当我们观察各个变量的时候使用的一般策略。在进行变量观察的时候,难的不是画图这个动作,而是决定看哪些变量与哪些变量之间的关系,以及以及如何进行观察。选择的变量和观察方式不同,我们能够得到的结论就不同。

  • 相关阅读:
    Python入门11 —— 基本数据类型的操作
    Win10安装7 —— 系统的优化
    Win10安装6 —— 系统的激活
    Win10安装5 —— 系统安装步骤
    Win10安装4 —— 通过BIOS进入PE
    Win10安装2 —— 版本的选择与下载
    Win10安装1 —— 引言与目录
    Win10安装3 —— U盘启动工具安装
    虚拟机 —— VMware Workstation15安装教程
    Python入门10 —— for循环
  • 原文地址:https://www.cnblogs.com/jiaxin359/p/8615502.html
Copyright © 2011-2022 走看看