zoukankan      html  css  js  c++  java
  • 数据的图表展示

    数据预处理

    数据的预处理是在对数据分类或分组之前所做的必要处理,内容包括数据的审核筛选排序等。

    数据审核

    数据审核就是检查数据中是否有错误。

    对于通过调查取得的原始数据(raw data),主要从完整性和准确性两个方面去审核。

    完整性审核主要是检查应调查的单位或个体是否有遗漏,所有的调查项目是否填写齐全等。

    准确性审核主要是检查数据是否有错误,是否存在异常值等。

    通过代码表示的话,可以使用python中pandas库对数据做具体操作;

    如果一份数据中存在缺失值,通过pandas读出数据后,会将缺失值表示为 NaN,只需统计NaN的状态就可以展示数据的完整性如何。

    也可以通过pandas检查数据的准确性   ,例如一份数据,里面的数值不能出现为0,则可以通过pandas计算这份数据是否存在为0数值,从而进行准确性审核。

    样例:

    数据筛选

    数据筛选(data filter)是根据需要找出符合特定条件的某类数据。

    比如,找出销售额在1000万元以上的企业;找出考试成绩在90分以上的学生,等等。

    数据筛选可借助计算机自动完成,例如用excel进行数据筛选,python的pandas库进行数据筛选。

    样例:

    数据排序

    数据排序是按一定顺序将数据排列,以便研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。

    除此之外,排序还有助于对数据检查纠错,以及为重新归类或分组等提供方便。

    在某些场合,排序本身就是分析的目的之一,例如了解究竟谁是中国汽车生产的三巨头,对于汽车生产厂商而言不论它是作为伙伴还是竞争者,都是很有用的信息。

    pandas表示数据排序的话,可以使用pandas中的 sort_index() 、sort_values() 、rank() 等方法进行。

    sort_index():通过索引排序

    sort_values():通过值进行排序

    rank() :对列里面的值做排名

    品质数据的整理与展示

    数据经过预处理后,可根据需要进一步做分类或分组。

    在对数据进行整理时,首先要弄清所面对的是什么类型的数据,因为不同类型的数据,所采取的处理方式和所适用的处理方法是不同的。

    对品质数据主要是做分类整理,对数值型数据则主要是做分组整理。

    品质数据包括分类数据和顺序数据,它们在整理和图形展示的方法上大多是相同的,但也有些微小差异。

    分类数据的整理与图示

    分类数据本身就是对事物的一种分类,因此,在整理时首先列出所分的类别,

    然后计算出每一类别的频数、频率或比例、比率等,即可形成一张频数分布表,最后根据需要选择适当的图形进行展示,以便对数据及其特征有一个初步的了解。

    待补充……………

    顺序数据的整理与图示

    顺序数据,除了可使用上面的整理和显示技术,还可以使用累计频数&累计频率(百分比)
    (排序后,分为向上累加和向下累加的形式)

    待补充………………

    数值型数据的整理与展示

    数据分组

    数据分组是根据统计研究的需要,将原始数据按照某种标准化分成不同的组别,分组后的数据称为分组数据(grouped data)。

    数据分组的主要目的是观察数据的分布特征。数据经分组后再计算出各组中数据出现的频数,就形成了一张频数分布表。

    数据分组的方法有单变量值分组和组距分组两种。

    数据展示

    待补充……

  • 相关阅读:
    jQuery(2)
    jQuery(1)
    underscore.js
    面向对象复习
    1.14函数复习
    面向对象(3)继承
    10.18
    1017
    js笔记二
    js笔记一
  • 原文地址:https://www.cnblogs.com/bigtreei/p/11789881.html
Copyright © 2011-2022 走看看