zoukankan      html  css  js  c++  java
  • 统计学 一 集中趋势

    预览

    参考书籍:浙大概率论与数理统计, 俄罗斯的概率教材, 概率-施利亚耶夫著作, 统计学及应用-sarah boslaugh著作    

    统计学分类:

        描述统计学:展示数据, 描述数据的集中和离散程度

        推断统计学:根据样本数据推断总体的数据特征

    统计趋势:

        集中趋势, 离散趋势

    统计学应用:

        有数据, 就有统计分析的需求

    把握要点:

    概率论是统计学实施的基础, 统计学倾向于解决实际问题

        常用符号:

            μ: 总体均值

            σ:总体标准差

            s:样本方差

            Σ:求和

     

    总体和样本:

        同一个数据集合既可以是总体也可以是样本, 具体取决于对该数据集合的分析目标

        分析目标是数据集的数据分布, 则该数据集是总体

        分析目标是通过该数据集,推断其他同类数据的趋势,则该数据集为样本

        例如:

            一个数据集为某个班学生的期末成绩

            分析目标是描述成绩分布的时候, 那么该班的期末成绩为总体

            分析目标是通过该班的成绩推断其他学生的期末成绩的时候, 那么该班的期末成绩为样本

        

     

    集中趋势描述度量:

    数据向中心值靠拢的程度,反映的是数据中心点的位置

    反映集中趋势的测度的统计量: 均值, 中位数, 众数

     

        均值:

    算术平均数, 所有统计数据的平均值, 描述平均水平

     

            均值对较小或者较大的异常值包容性较小, 容易受极端值的影响, 均值并不适合极端值多的数据集

            对于偏态数据集(非对称数据) 均值结果会产生误导, 不能准确反映大多数数据的趋势, 则改用中位数取代

            极端值: 也叫离群点,

     

        分组数据均值:

            分组区间中点X分组频数

     

        中位数:

    数据按照大小的排列顺序,

    位于排序后的数据后的中间的数据

        排序后的个数为偶数时: 中位数是中间两个数值的平均值

        排序后的个数为奇数时: 中位数是就是中间的数值

     

    太过于分散的数据集, 中位数也不能很好 的描述数据的集中趋势, 缺少敏感性

     

    众数:

    数据集中出现频数最多的数值, 众数不唯一

     

    当数据具有明显的集中趋势的时候, 代表性较好, 不受极端值的影响

     

    离散趋势描述度量:

        描述数据分散程度的度量, 也会被称为, 波动测度或者分布测度

        反映离散程度的度量: 极差, 四分位差, 方差, 标准差

        

        极差:

            数据中最大值最小值之差

            简单描述数据的范围大小

        

        四分位差(距):

            数据集中间50%数据的极差, 数值为:数据集中的75%位置的数据和25%位置的数据的值之差

            四分位差求法:

    1. 数据集从小到大排序
    2. 定义:n = 数据集的数据个数, k = 数据集的第k个百分位
    3. 求第k百分位位置的数据位置j
    4. J = Nk/100:为整数 取数据集的第j和j+1位置的数据的均值作为第k百分位的数

      J = nk/100:为小数 取数据集的第j+1位置的数据作为第k百分位的数

    5. 简单就是除的尽,取该位置的数和他后面的数的均值, 除不尽就取整数位置

    方法二:

    1. 找到中位数: 50%分位数
    2. 找到前半部分的中位数 25%分位数(下分位数)
    3. 找到后半部分的中位数 75%分位数(上分位数`)
    4. 最小值 (下边缘)
    5. 最大值(上边缘)

    四分位差不受离群点的影响, 可以制作箱线图, 可以方便的展示数据的分布情况, 数据的极大值,极小值, 数的大多数据的分布情况.

     

        方差σ²:

            每个值和均值的差的平方和除以值个数(元素值的平方和均值的平方差求和再求均值)

            描述数据的离散程度, 数据距离中心越远就越离散

            

        标准差σ:

            方差的开方,为了保持数据描述单位的一致

     

    图示表示数据

        图示展示数据要点:

            清晰易懂, 数据间的差别展示清楚, 传达信息明确

     

        频数表, 频数直方图:

            展示不同类别中所含有的实例数, 某一范围的数据的实例的多少

            频数:绝对频数, 相对频数, 累积频数

                相对频数: 每一类中的个体数占全体个数的比例

                累积频数: 低于该类的所有频数的相对频数和

    条形图:

        展示只有几个类别的离散数据

    堆积条形图:

        突出每组内的值的相对分布情况

     

    饼图:

        展示数据的各个部分占全部比例的情况

        

        帕累托图:

            直方图加折线图, 直方图显示频数和相对频数, 折线图显示累积频数,

    可以清晰的展示最多影响和累积影响

    帕累托2:8原则:

        80%的活动或者结果由20%的原因产生

        

        箱线图:

            由中位数, 第一分位数(下分位数), 第三分位数(上分位数), 最小值(下边缘), 最大值(上边缘) 组成

            可以显示数据的集中趋势, 极差, 对称性, 以及离群点

     

        直方图:

            展示连续数据, 同组数据

            可以判断数据的集中值与正太分布的相似程度

            

        双变量图:

            散点图

            折线图:展示数据的变化趋势

     

        茎叶图:

            左茎右叶图

    保留全部数据信息, 只管显示数据据的分布情况

        柱形图:

            显示一段时间内数据的变化, 或者各项之间的比较情况 不同组数据的对比

     

            

  • 相关阅读:
    CodeForces Gym 100500A A. Poetry Challenge DFS
    CDOJ 486 Good Morning 傻逼题
    CDOJ 483 Data Structure Problem DFS
    CDOJ 482 Charitable Exchange bfs
    CDOJ 481 Apparent Magnitude 水题
    Codeforces Gym 100637G G. #TheDress 暴力
    Gym 100637F F. The Pool for Lucky Ones 暴力
    Codeforces Gym 100637B B. Lunch 找规律
    Codeforces Gym 100637A A. Nano alarm-clocks 前缀和
    TC SRM 663 div2 B AABB 逆推
  • 原文地址:https://www.cnblogs.com/binyang/p/10918541.html
Copyright © 2011-2022 走看看