zoukankan      html  css  js  c++  java
  • (八)估计

    学习如何使用置信区间估计总体参数,并估计某种处理的效果。

    总结下上一章的内容,我们从一个总体(分布) 即 Klout 分数开始介绍,该总体的数量是 1,048,Klout 分数均值是 37.72,总体标准偏差约为 16.04,根据中心极限定理,如果我们取出同一样本量的所有可能样本,然后算出每个样本的均值,并绘制出这些样本均值的分布图,结果会是正态分布,均值等于总体均值。

    标准偏差等于总体标准偏差除以样本量的平方根,注意,这叫做抽样分布。

    如果从该总体中取出所有样本量为 35 的样本,算出每个样本的均值,然后绘制出样本均值分布图,均值的均值将和总体均值相同,该分布的标准偏差将等于总体标准偏差除以 35 的平方根,结果约为 2.71,同时请注意,抽样分布的标准偏差叫做标准误差。如果绘制该抽样分布图,它将是下图这样的,距离均值一个标准偏差将等于 37.72+2.71 和 37.72-2.71

    置信区间

    假设样本量是 35,均值是 40,并且样本里的每个人都使用Bieber Twitter 应用会是怎样的情况?

    如果 Klout 总体中的每个人都开始使用 Bieber Tweeter,均值 Klout 分数的结果最可能是多少?
    
        □ 3037.724060

    我们无法得出任何结论,只有这一个样本的统计信息,所以最有把握的猜测是 40,因为我们拥有使用了Bieber Tweeter 的用户样本,他们的 Klout 分数均值是 40,该值叫做点估计,因为它只是一个数值,所以这就是当所有人都开始使用 Bieber Twitter 时,我们对总体均值最有把握的猜测结果

    在正太分布中,大约有多少百分比的样本均值会落在距离总体均值的多少距离内?注意,我们讨论的不是总体,而是抽样分布,所以有多少百分比的样本均值会落在距离总体均值的多少距离内?

    在正态分布中,大约 68% 的值会落在距离均值1 个标准偏差的范围内,95% 的值会落在 2 个标准偏差的范围内,但这针对的是普通的正态分布总体,我们现在讨论的是抽样分布,所以数据集中的每个值都是均值,标准偏差等于总体标准偏差除以样本量 n 的平方根,所以 95% 的样本均值会落在总体均值标准误差的两倍范围内。
    View Code

    如果每个人都开始使用 Bieber Twitter,我们实际上计算了 klout 分数均值,该均值会完全等于 40 吗?

    不会的
    
    给定一个总体,如果从中抽取一个样本,样本统计信息很有可能不会完全等于总体参数,任何样本的均值可以是一系列的值。
    View Code

    如果我们对总体进行某种干预,例如每个人都开始使用 Bieber twitter,那么我们的最佳猜测就是均值可能是 40,但也可能是40 周围的任何值,也就是说如果所有人都开始使用 Bieber Twitter,实际的总体均值会在 40 周围波动这个区间有多大呢?大约有多少百分比的样本均值会落在距离总体均值的多少距离内?注意,我们讨论的不是总体,而是抽样分布,所以有多少百分比的样本均值会落在距离总体均值的多少距离内?

    在正态分布中,大约 68% 的值会落在距离均值1 个标准偏差的范围内,95% 的值会落在 2 个标准偏差的范围内,但这针对的是普通的正态分布总体,现在讨论的是抽样分布,所以数据集中的每个值都是均值,标准偏差等于总体标准偏差除以样本量 n 的平方根,所以 95% 的样本均值会落在总体均值标准误差的两倍范围内
    View Code

    如果 Klout 总体中的所有人都开始使用 Bieber Twitter,那么最有可能包含该总体均值的区间估算结果是多少?提醒下,我们的总体参数均值是 37.72,标准偏差是 16.04,对于我们的抽样分布均值是 37.72,标准偏差是标准误差即 σ/√n ̄ 结果约为 2.71

    34.58 - 45.42
    
    可以使用总体标准偏差或标准误差 2.71,X 拔是 40 下限是 40-2(2.71),上限是 40+2(2.71)
    我们可以非常肯定的是,如果所有人都开始使用Bieber Tweeter,那么总体的均值和对应的样本量为 35 的抽样分布的均值会在这两个值之间,我们的分布可以在34.58-45.42的任何位置,以 34.58 为中心,这个值 40依然在 95% 的范围内,或者在这里以 45.02 为中心,均值依然在 95% 范围内,这个从 34.58到 45.42 的区间叫做均值的 95% 置信区间。
    View Code

    精确的Z值

    之前我们提到的是大约 95% 的样本均值会落在2σ/√n ̄ 区间内,现在我们来使用精确的值,在任何正态分布中,均值是 μ,我们知道大约 95% 的数据会在均值的 2 个标准偏差范围内,那么到底是多少个标准偏差限定了 95% 的数据?

     

    -1.96,1.96
    
    使用Z表格,https://s3.amazonaws.com/udacity-hosted-downloads/ZTable.jpg
    View Code

    之前我们是估计大约 95% 的样本均值会落在均值的 2 个标准偏差范围内,现在我们将使用精确值,也就是在抽样分布中 有 95% 的样本均值会落在距离总体均值 1.96 个标准偏差的范围内。

    我们抽取了样本量为 35 的 Bieber Twitter 用户样本,算出他们的 Klout 分数均值是 40,如果我们假设该分数均值是落入距离均值 1.96 个标准偏差范围内的 95% 均值之一,那么总体均值的可能值范围是多少?
    注意,这是所有人使用 Bieber Twitter 的可能均值,所以下限会是多少?上限又会是多少?
    我们知道 95% 的样本均值将位于总体均值(也就是样本均值的均值) 的 1.96 个标准偏差范围内,所以为 40-1.96(2.71) 和 40+1.96(2.71) 结果约为 34.69 到45.31,所以总体均值的置信区间应该是 34.69 到45.31。
    如果每个人都使用 Bieber Twitter 则点估计是 40,区间估计是我们的 95% 置信区间,即是 34.69 到45.31
    View Code

     参与度与学习度

    我们再来看一个关于置信区间的示例,希望你到目前为止都学的比较开心,如何衡量这种开心程度呢?或许可以根据每个人观看视频的分钟数除以视频的总时长(分钟数)来衡量,我们可以称之为参与度比值。因为通过该比值可以判断视频对你的吸引力是多少?如果你观看的视频越多,那么你可能更加受到吸引,下面的连接是虚拟数据集

    http://pan.baidu.com/s/1i526Ndz

    首先算出这些数据的均值和标准偏差是多少?

    均值是0.077,标准偏差是0.107
    
    可以看到有 8,702 名学员,首先计算平均值 =average(a1:a8702),得出参与度比值约为 0.077,再来算算标准偏差,当我们将这个当做总体的时候 我们不需要添加校正系数,结果是 0.107
    View Code

    上面的结果就是我们的总体参数,假设我想要提高这个比值,想要更多的人观看更多的课程,所以为课程增加点趣味,在下一章中,将介绍如何正式地判断某件事是否有效果,这就叫做假设检验。我也决定为假设检验写首歌,并在下节课唱给大家听,但是,我不希望冒险写一首歌导致大家不愿学习课程内容,而不是提高了大家的学习兴致,所以我可能为下节课创作一首歌,但是只公布给随机的 20 名学员样本,我不会逼着他们去观看,还是和往常一样,然后我将看看这个比值,假设对于这个样本,比值均值是 0.13,如果根据这个样本,我们让所有 8,702 名学员都能观看到这节课的内容,那么参与度比值的点估计会是多少?

    0.13
    
    因为样本的平均参与度比值是 0.13,我们猜测,总体的参与度比值将是 0.13,这就表示平均下来,对于每 1 小时的课程内容,如果我们用一首歌的形式推出这节新课程,学员将会观看几乎 8 分钟的内容,注意,因为分布是偏斜分布,所以学员观看的分钟数将明显偏向左侧往 0 靠近,因为可能有很多学员注册了但是并未观看任何一节课,对于注册这门课程并一直学下去的学员来说,这个数值将很高,但平均下来大约为 8 分钟
    View Code

     刚刚计算了点估计值,那么区间估计值呢?因为我们知道总体均值将可能为 0.13 左右的某个值,注意,如果我们让所有人都能访问这节音乐形式的课程,这就是总体均值,那么均值的标准误差会是多少?

     下图是我们的总体,y 轴表示频率,x 轴表示参与度比值,假设我们从这个总体中抽取了样本量为 20 的所有可能样本,然后计算了每个样本的均值,并绘制出均值的分布图,该分布将是正态的,该分布的均值应该等于总体均值,之前计算了是 0.077,该分布的标准偏差是总体标准偏差除以样本量,即 0.107/√20 ̄,四舍五入到最接近的千分位 结果是 0.024,这就是标准误差,当我们算出样本量为 20 的参与度比值均值是 0.13,我们可以在这个分布上将其与标准误差进行对比,我们想知道 0.13 距离均值多少个标准误差?

    根据样本均值结果,即 0.13,如果所有人都能观看这节音乐形式的课程,那么真实的总体均值将是 0.13 周围的某个值。

    对于 95% 置信区间,我们假设这个样本均值将是 95% 的位于真实总体均值周围的样本均值之一,我们将真实的总体均值称为 μI,I 表示干预,这就意味着如果这个样本均值在这个 95% μI 范围内,上限和下限是多少?

  • 相关阅读:
    给Windows组件添加图标
    C#文件和文件夹操作
    WinForm TreeView 右键菜单
    VC++ New 操作符
    Ext与Jquery的整合
    PowerDesign报表操作
    SQLServer自动建表存储过程
    Visual Studio 2008简体中文正式版下载地址
    WinForm遍历控件
    发布时用直接用源文件部署
  • 原文地址:https://www.cnblogs.com/qingyunzong/p/7602027.html
Copyright © 2011-2022 走看看