数据特征分析
对于数据的特征分析是十分重要的,可以让我们更加的了解数据的信息,在下一步的数据分析、数据建模能帮助我们做出更好的决策。同时能给我们在解决问题上提供灵感。
数据特征分析可以分为如下几类
1.分布分析
2对比分析
3.统计量分析
4.周期性分析
5.贡献度分析
6.相关度分析
下面我就来大致介绍一下上面六种特征分析
分布分析:
分布分析要针对两种类型的变量进行不同的处理。
对于定量变量而言,选择”组数“和组宽是做频率分布分析时最重要的问题,一般按照以下步骤进行。
1)求极差
2)决定组距和组数
3)决定分点
4)列出频率分布表
5)绘制频率分布直方图
对于定性变量而言,常常根据变量的分类类型来分组,可以采用饼图和条形图来描述定性变量的分布。
对于定性变量和定量变量这里做一个接单介绍:
定性变量是统计学的概念,又名分类变量 ,观测的个体只能归属于几种互不相容类别中的一种时,一般是用非数字来表达其类别,这样的观测数据称为定性变量。
定量变量 也就是通常所说的连续量,如长度、重量、产量、人口、速度和温度等,它们是由测量或计数、统计所得到的量,这些变量具有数值特征,称为定量变量。
对比分析:
对比分析是指把两个相互联系的指标进行比较,从数量上展示盒说明研究对象规模的大小,水平的高低,速度的快慢,以及各种关系是否协调。特别适用于指标间的横纵向比较、时间序列的比较分析。在对比分析中,选择合适的对比标准是十分关键的步骤,只有选择合适,才能做出客观的评价,选择不合适,评价可能得出错误的结论。
对比分析主要有以下两种形式
(1)绝对数比较
绝对数比较式利用绝对数进行对比,从而寻找差异的一种方法。
(2)相对数比较
相对数比较式由两个有联系的指标对比计算的,用以反映客观现象之间数量联系程度的综合指标,其数值表现为相对数。由于研究目的和对比基础不同,相对数可以分为以下几种。
统计量分析:
用统计指标对定量数据进行统计描述,常从集中趋势和离中趋势两个方面分析。
集中趋势度量指标
平均值,中位数,众数
离中趋势度量指标
极差,标准差,变异系数,四分位间距
周期性分析:
周期性分析是探索某个变量是否随着时间变化而呈现出某种周期变化趋势。时间尺度相对较长的周期性趋势有年度周期性趋势,季节周期性趋势,相对较短的有月度周期性趋势和周度周期性趋势,甚至更短。
贡献度分析:
贡献度分析又称帕累托分析,它的原理是帕累托法则,又称20/80定律。同样的投入放在不同的地方会产生不同的收益。
”相关性分析:
分析连续变量之间的现行相关程度的强弱,并用适当的统计指标表示出来的过程称为相关分析。
可以绘图分析,也可以计算一些衡量相关性的参数,如person系数,Spearman秩相关系数。
这里先大致介绍一下,以后我还会详细介绍这部分内容。