zoukankan      html  css  js  c++  java
  • 基于统计学的基础分析方法

    首先,统计学是应用数学的一个分支,主要通过概率论建立模型,收集观察的数据,进行量化分析,从而进行推断和预测。统计学即透过现象看本质。

    1.数据的度量

    数据的主要分布特征:集中趋势(向平均值靠拢的趋势),离散程度,分布形状。 数据的分类:定量数据和定性数据。

    定量数据分为:

    1. 连续变量:可以取任何值,可分割至小数点。如身高、体重。
    2. 离散变量:只能取整数值,不可以取小数。如人数。

    定性变量分为:

    1. 有序分类变量:分类之间有等级或程度的的变化。如高、中、低。
    2. 无序分类变量:如男,女。

    1.1 定量数据的统计描述指标

    代表集中趋势:均值,几何均值,众数,中位数,分位数。

      几何均值:N个数值乘积的N次方根。(数值中避免出现同正、同负的,避免0值)可以取对数:即对数几何平均值。

    代表离散程度:方差,标准差,四分间距。

    不同样本间的离散程度用变异系数:vs=S/ 样本均值

    1.2 定性数据的统计描述指标:比,比率。

    1.3 数据分布的形态描述

    偏度:数据分布对称性的度量。正态分布,右(正)偏态分布,左(负)偏态分布。

    峰度:数据分布平峰或尖峰程度的度量。

    2 分类数据分析

    2.1 列联表分析:分析行列变量之间是否独立(是否相关)。

        无序分类变量的组间比较多用卡方检验(分析组间差异)。

        如果要检验组间等级差异是否有统计学意义,即有序分类变量之间的组间比较多用秩和检验。

    3 定量数据分析

        t检验主要用于两组定量变量的比较,方差分析(F检验)主要用于多组变量之间的比较。(数据均要满足独立性,正态性,方差齐性)

    4.时间序列分析(同一现象在不同时间的观察值形成的数据)

    4.1时间序列由3个成分组成:趋势、季节、误差。如果要对一个时间序列进行深入的研究,就要对这些序列进行分解或者过滤。

    4.2时间序列描述统计:环比:报告期内观察值与前一期观察值的比减1。定基比:报告期内观察值与某一固定时期(如去年这个时候)观察值的比减1。

                            平均增长率:逐期环比值的几何均值减一的结果。

    4.3时间序列特性分析:

    随机性:时序各项之间没有相关性。时间序列模型建立在序列非随机的条件上。

    平稳性:对于任何时间t,均值和方差不变化,自然相关系数只与时间间隔有关,与所处的时间点无关。时序模型需建立在序列平稳的模型上。

    季节性:在一定时间间隔上,重复出现前面的某种特性。消除季节性。

    5 定量数据的相关分析:主要是线性相关,研究两个或多个变量之间的相互依存关系。

    Pearson系数:主要用于正态分布数据

    Spearman系数:主要用于偏态数据或等级数据

  • 相关阅读:
    VS2008中应用.NET 4.0中的代码契约
    生日快乐
    Did you know…How to maintain scrollposition after post back? z
    微软正式发布SQL Server 2008
    想要注册一个写日记用的博客(选好了)
    SCOPE_IDENTITY、IDENT_CURRENT 和 @@IDENTITY的区别(比较) z
    Microsoft Visual Studio 2010 and the .NET Framework 4.0 CTP下载
    mysql
    如何用iframe代码显示调用网页的指定部分
    文件夹权限
  • 原文地址:https://www.cnblogs.com/moady/p/5569645.html
Copyright © 2011-2022 走看看