数据预处理
数据的预处理是在对数据分类或分组之前所做的必要处理,内容包括数据的审核、筛选、排序等。
数据审核
数据审核就是检查数据中是否有错误。
对于通过调查取得的原始数据(raw data),主要从完整性和准确性两个方面去审核。
完整性审核主要是检查应调查的单位或个体是否有遗漏,所有的调查项目是否填写齐全等。
准确性审核主要是检查数据是否有错误,是否存在异常值等。
通过代码表示的话,可以使用python中pandas库对数据做具体操作;
如果一份数据中存在缺失值,通过pandas读出数据后,会将缺失值表示为 NaN,只需统计NaN的状态就可以展示数据的完整性如何。
也可以通过pandas检查数据的准确性 ,例如一份数据,里面的数值不能出现为0,则可以通过pandas计算这份数据是否存在为0数值,从而进行准确性审核。
样例:
数据筛选
数据筛选(data filter)是根据需要找出符合特定条件的某类数据。
比如,找出销售额在1000万元以上的企业;找出考试成绩在90分以上的学生,等等。
数据筛选可借助计算机自动完成,例如用excel进行数据筛选,python的pandas库进行数据筛选。
样例:
数据排序
数据排序是按一定顺序将数据排列,以便研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。
除此之外,排序还有助于对数据检查纠错,以及为重新归类或分组等提供方便。
在某些场合,排序本身就是分析的目的之一,例如了解究竟谁是中国汽车生产的三巨头,对于汽车生产厂商而言不论它是作为伙伴还是竞争者,都是很有用的信息。
pandas表示数据排序的话,可以使用pandas中的 sort_index() 、sort_values() 、rank() 等方法进行。
sort_index():通过索引排序
sort_values():通过值进行排序
rank() :对列里面的值做排名
品质数据的整理与展示
数据经过预处理后,可根据需要进一步做分类或分组。
在对数据进行整理时,首先要弄清所面对的是什么类型的数据,因为不同类型的数据,所采取的处理方式和所适用的处理方法是不同的。
对品质数据主要是做分类整理,对数值型数据则主要是做分组整理。
品质数据包括分类数据和顺序数据,它们在整理和图形展示的方法上大多是相同的,但也有些微小差异。
分类数据的整理与图示
分类数据本身就是对事物的一种分类,因此,在整理时首先列出所分的类别,
然后计算出每一类别的频数、频率或比例、比率等,即可形成一张频数分布表,最后根据需要选择适当的图形进行展示,以便对数据及其特征有一个初步的了解。
待补充……………
顺序数据的整理与图示
顺序数据,除了可使用上面的整理和显示技术,还可以使用累计频数&累计频率(百分比)
(排序后,分为向上累加和向下累加的形式)
待补充………………
数值型数据的整理与展示
数据分组
数据分组是根据统计研究的需要,将原始数据按照某种标准化分成不同的组别,分组后的数据称为分组数据(grouped data)。
数据分组的主要目的是观察数据的分布特征。数据经分组后再计算出各组中数据出现的频数,就形成了一张频数分布表。
数据分组的方法有单变量值分组和组距分组两种。
数据展示
待补充……