首先,统计学是应用数学的一个分支,主要通过概率论建立模型,收集观察的数据,进行量化分析,从而进行推断和预测。统计学即透过现象看本质。
1.数据的度量
数据的主要分布特征:集中趋势(向平均值靠拢的趋势),离散程度,分布形状。 数据的分类:定量数据和定性数据。
定量数据分为:
- 连续变量:可以取任何值,可分割至小数点。如身高、体重。
- 离散变量:只能取整数值,不可以取小数。如人数。
定性变量分为:
- 有序分类变量:分类之间有等级或程度的的变化。如高、中、低。
- 无序分类变量:如男,女。
1.1 定量数据的统计描述指标
代表集中趋势:均值,几何均值,众数,中位数,分位数。
几何均值:N个数值乘积的N次方根。(数值中避免出现同正、同负的,避免0值)可以取对数:即对数几何平均值。
代表离散程度:方差,标准差,四分间距。
不同样本间的离散程度用变异系数:vs=S/ 样本均值
1.2 定性数据的统计描述指标:比,比率。
1.3 数据分布的形态描述
偏度:数据分布对称性的度量。正态分布,右(正)偏态分布,左(负)偏态分布。
峰度:数据分布平峰或尖峰程度的度量。
2 分类数据分析
2.1 列联表分析:分析行列变量之间是否独立(是否相关)。
无序分类变量的组间比较多用卡方检验(分析组间差异)。
如果要检验组间等级差异是否有统计学意义,即有序分类变量之间的组间比较多用秩和检验。
3 定量数据分析
t检验主要用于两组定量变量的比较,方差分析(F检验)主要用于多组变量之间的比较。(数据均要满足独立性,正态性,方差齐性)
4.时间序列分析(同一现象在不同时间的观察值形成的数据)
4.1时间序列由3个成分组成:趋势、季节、误差。如果要对一个时间序列进行深入的研究,就要对这些序列进行分解或者过滤。
4.2时间序列描述统计:环比:报告期内观察值与前一期观察值的比减1。定基比:报告期内观察值与某一固定时期(如去年这个时候)观察值的比减1。
平均增长率:逐期环比值的几何均值减一的结果。
4.3时间序列特性分析:
随机性:时序各项之间没有相关性。时间序列模型建立在序列非随机的条件上。
平稳性:对于任何时间t,均值和方差不变化,自然相关系数只与时间间隔有关,与所处的时间点无关。时序模型需建立在序列平稳的模型上。
季节性:在一定时间间隔上,重复出现前面的某种特性。消除季节性。
5 定量数据的相关分析:主要是线性相关,研究两个或多个变量之间的相互依存关系。
Pearson系数:主要用于正态分布数据
Spearman系数:主要用于偏态数据或等级数据