zoukankan      html  css  js  c++  java
  • 基于统计学的基础分析方法

    首先,统计学是应用数学的一个分支,主要通过概率论建立模型,收集观察的数据,进行量化分析,从而进行推断和预测。统计学即透过现象看本质。

    1.数据的度量

    数据的主要分布特征:集中趋势(向平均值靠拢的趋势),离散程度,分布形状。 数据的分类:定量数据和定性数据。

    定量数据分为:

    1. 连续变量:可以取任何值,可分割至小数点。如身高、体重。
    2. 离散变量:只能取整数值,不可以取小数。如人数。

    定性变量分为:

    1. 有序分类变量:分类之间有等级或程度的的变化。如高、中、低。
    2. 无序分类变量:如男,女。

    1.1 定量数据的统计描述指标

    代表集中趋势:均值,几何均值,众数,中位数,分位数。

      几何均值:N个数值乘积的N次方根。(数值中避免出现同正、同负的,避免0值)可以取对数:即对数几何平均值。

    代表离散程度:方差,标准差,四分间距。

    不同样本间的离散程度用变异系数:vs=S/ 样本均值

    1.2 定性数据的统计描述指标:比,比率。

    1.3 数据分布的形态描述

    偏度:数据分布对称性的度量。正态分布,右(正)偏态分布,左(负)偏态分布。

    峰度:数据分布平峰或尖峰程度的度量。

    2 分类数据分析

    2.1 列联表分析:分析行列变量之间是否独立(是否相关)。

        无序分类变量的组间比较多用卡方检验(分析组间差异)。

        如果要检验组间等级差异是否有统计学意义,即有序分类变量之间的组间比较多用秩和检验。

    3 定量数据分析

        t检验主要用于两组定量变量的比较,方差分析(F检验)主要用于多组变量之间的比较。(数据均要满足独立性,正态性,方差齐性)

    4.时间序列分析(同一现象在不同时间的观察值形成的数据)

    4.1时间序列由3个成分组成:趋势、季节、误差。如果要对一个时间序列进行深入的研究,就要对这些序列进行分解或者过滤。

    4.2时间序列描述统计:环比:报告期内观察值与前一期观察值的比减1。定基比:报告期内观察值与某一固定时期(如去年这个时候)观察值的比减1。

                            平均增长率:逐期环比值的几何均值减一的结果。

    4.3时间序列特性分析:

    随机性:时序各项之间没有相关性。时间序列模型建立在序列非随机的条件上。

    平稳性:对于任何时间t,均值和方差不变化,自然相关系数只与时间间隔有关,与所处的时间点无关。时序模型需建立在序列平稳的模型上。

    季节性:在一定时间间隔上,重复出现前面的某种特性。消除季节性。

    5 定量数据的相关分析:主要是线性相关,研究两个或多个变量之间的相互依存关系。

    Pearson系数:主要用于正态分布数据

    Spearman系数:主要用于偏态数据或等级数据

  • 相关阅读:
    MVC模式-----struts2框架(2)
    MVC模式-----struts2框架
    html的<h>标签
    jsp脚本元素
    LeetCode "Paint House"
    LeetCode "Longest Substring with At Most Two Distinct Characters"
    LeetCode "Graph Valid Tree"
    LeetCode "Shortest Word Distance"
    LeetCode "Verify Preorder Sequence in Binary Search Tree"
    LeetCode "Binary Tree Upside Down"
  • 原文地址:https://www.cnblogs.com/moady/p/5569645.html
Copyright © 2011-2022 走看看