zoukankan      html  css  js  c++  java
  • 极简统计学--要点总结

    第二章总结:
    从频数的分布进行平均值的计算
    平均值=组值X相对频数的合计

    直方图中平均值的意义
    将直方图看作挑担人偶玩具时平衡的支点

    平均值的性质
    其一 数据在平均值的周边分布
    其二 多次出现的数据对平均值的影响力大
    其三 直方图呈左右对对称情况下,其对称轴的占即平均值

    算术平均数据:相加再除以个数,公式=(x+y)/2
    几何平均数:相乘再开方
    均方根值:是将各个数据进行平方再相加除以个数,最后进行开方
    调和平均数:1/(1/2x+1/2y),应用场景:来回路程平均时速。

    挑担人偶玩具的支点是“算术平均数”的理由
    数据只有两种数字X和Y,X的频数为a个,y的频数为b个;m是平衡支点;
    从杠杆原理可得(m-x)*a=(y-m)*b
    m=(a/(a+b))*x*(b/(a+b))*y

    ma-xa=yb-mb
    ma+mb=yb+xa
    m(a+b)=
    m=(xa+yb)/(a+b)
    m=xa/(a+b)+yb/(a+b)

    第三总结:
    平均值=(数据的合计)/(数据数);
    偏差=(数据的数值)-(平均值)
    方差=[(偏差的平方)的合计]/(数据数)
    标准差=方差的根值
    从频数分布表进行方差和标准差的计算
    方差=(组值-平均值)的平方*相对频数的合计
    标准差=方差的根值

    标准差的意义
    平均值是从数据的分布中取出的代表的数;
    因此,可以认为数据以平均值为基点,在其左右扩散;
    评价这种扩散、分散的是标准差;
    标准差将数据平均值的离散方式进行平均化。此时,无论向大的方面离散还是小的方面离散,都以正数进行评价,进行避免相互抵消的平均。

    第四章总结:
    1、判断数据的特殊性,以S.D.为基准;
    2、只距离平均值1个S.D.左右的数据可以被称为普通的数据,距平均值超过2个S.D.的数据可以被称为特殊的数据;
    3、想要知道有几个S.D.,可以用[(数据)-(平均值)]/(S.D.)来计算;
    4.1、数据组X的全部数据加上定值a得新数据组Y,数据Y的平均值是数据X的平均值加上a,数据Y的方差和S.D.与数据X的相比不变;
    4.2、数据组X的全部数据乘以定值k得到亲数据组Y,数据Y的平均值是数据X的平均值乘以k,数据Y的方差是K的平方位数,S.D.是k倍;
    5、将数据进行[(数据)-(平均值)]/(S.D.)的加工,所得数据的平均值为0,S.D.为1。

    第5章总结
    1、在股票交易中,不仅是收益率的平均值,S.D.也很重要。
    2、购入股票时,有收益率会从平均值下降1个S.D.左右的思想准备会比较好。
    3、购入购票时,不用过多考虑收益率从收益率平均值下降2个S.D.左右的情况。
    4、股票的收益率的S.D.的术语,叫作波动率;

    第6章总结
    金融商品X的夏普比率按照如下方法计算
    X的夏普比率=(X的回报-国债的收益率)/X的风险;
    夏普比率是个分数,分子是对回报的评价,分母是对风险的评价;
    1、投资基本上是对高风险、高回报的商品,还是低风险、低回报的商品的选择。这种商品的差异,是性质的差异,并不意味着优劣。
    2、可以说,在同样的平均收益率之下,S.D.小的是优良的金融商品,而在同样的S.D.之下,平均收益率大的是优良的金融商品。
    3、就此意义上来说,金融商品优劣的评价基准是夏普比率(SPM).
    SPM越大,金融商品就越是优良;

    第7章总结
    1、正态分布是自然办和人类社会中最常见的分布。比如,在身高数据和掷硬币正面出现枚数的数据中就很常见。
    2、标准正态分面,平均值=0,S.D.=1.
    3、关于标准正态分布,(+1)~(-1)范围的数据(距平均值1个S.D.范围以内的数据)的相对频数为0.6828(70%弱)
    (+2)~(-2)范围的数据(距平均值2个S.D.范围以内的数据)的相对频数为0.9544(95%强)
    4、一般正太分布的数据,由σ×(标准正态分布的数据)+μ可得。其中平均值=μ S.D.=σ;
    5、平均值为μ S.D.为σ的正态分布回到标准正态分布的算式为:z=(x-μ)÷σ;
    6、关于平均值为μ、S.D.为σ的正态分布,
    (μ+1×σ)~(μ-1×σ)范围的数据(距平均值1个S.D.以内范围的数据)的相对频数为0.6826(70%弱)
    (μ+2×σ)~(μ-2×σ)范围的数据(距平均值2个S.D.以内范围的数据)的相对频数为0.9544(75%强)

    第8章总结
    1、标准正态分布的95%预测命中区间是-1.96以上+1.96以下
    2、平均值为平均值为μ、S.D.为σ的正态分布预测命中区间是(μ-1.96σ)以上(μ+1.96σ)以下。
    3、数据X是平均值为μ、S.D.为σ的一般正态分布数据时,计算z=(X-μ)÷σ;
    4、数据X是平均值为μ、S.D.为σ的正态分布时,95%预测命中区间为解不等式-1.96≤(X-μ)÷σ≤1.96所得的范围;

    第9章总结
    有关正态分布(或者近似正态分布)的母群体的总体参数为某数值的假设检验,可这样进行:
    其总体参数的母群体是正态分布,平均值为μ、S.D.为σ时,如果观测到的数据X的不等式-1.96≤(X-μ)÷σ≤1.96
    成立,假设不被舍弃(接受);
    不成立,假设被舍弃;

    第10章总结
    1、区间估计是这样一种估计方法:它针对母群休的总体参数(参数),在假定其总体参数的情况下,只集合了现实观测到的数据在观测数据的95%预测命中区间的总体参数。根据区间估计确定的总体参数的范围叫作95%置信区间

    2、由区间估计求得的区间,是对所有的总体参数进行上一章中的检验操作,不舍弃而保留的集合。

    3、关于正态母如何已知标准差σ,对未知的平均值μ进行区间估计的方法。
    使用观测到的数据X,解关于μ的一元一次不等式-1.96≤(X-μ)÷σ≤1.96
    得出*≤μ≤*的形式即可

    4、95%置信区间是这样一种区间,它由各种各样的观测值用相同方法进行区间估计,其中95%包含正确的总体参数。

    第11章总结
    1、无限母群体中,各数据以无限个数存在,其“观测的容易性”各不相同。
    2、随机抽样法的假设,是“进行足够多次数的观测做成直方图,再现母群体分布”的假设。
    3、母群体的平均值μ叫作总体均值,以下的方法进行计算
    μ=数据的数值×相对频数的和(=数据的数据×池子大小的和)

    第12章总结
    1、表示母如何数据分散程度的统计量是总体标准差;
    2、总体标准差由以下步骤可求
    偏差=(数据的数值)-(总体平均值μ)
    总体方差σ2=[(偏差的平方)×(池子的大小)]的合计
    总本标准差σ=总全方差σ2的平方根

    第13章总结
    1、观测到的数据,可以在一定程度上认为接近总体均值
    2、观测复数的数据,它的平均值叫作样本均值,记作X
    3、观测复数的数据取值均值,比1个数据更接近总体均值。观测数据越增加,样本均值走近总体均值的可能性越高
    4、大数法则,从1个母群体中,观测N个数据取其样本均值。此时,N越大,样本均值为接近总体均值的数据μ的可能性越高。

    第14章总结
    1、正态母群体的样本均值的性质
    正态母群体的总体均值为μ,总体标准差为σ,观测到的n个数据X的样本均值x(将它们的集合作为别的母群体时)的分布仍为正态分布。x的分布的平均值仍为μ,但标准差为σ/(n的平分根),与母群体相比缩小为N的平方根之一。
    2、正态母群体的样本均值的95%预测命中区间
    对于总体均值为μ,总体标准差为σ的正态分布数据的N个样本均值x来说,95%的预测命中区间为:(μ-1.96(σ/n的方根))以上(μ+1.96(σ/n的方根))以下。
    3、正态母群体的样本均值的95%预测命中区间:不等式表示
    对于总体均值为μ,总体标准差为σ的正态母群体数据的N个样本均值x来说,95%预测命中区间为由-1.96≤(x-μ)/(σ/n的方根)≤+1.96
    解得的范围。

    第15章总结
    1、正态母如何中已知总体标准差为σ(总体方差为σ2)时,为了从n个样本估计总体均值μ,可以计算样本均值x,保留(不舍弃)满足-1.96≤(x-μ)/(σ/n的方根)≤+1.96的μ即可。
    2、此时,μ的95%置信区间为:x-1.96(σ/n的方根)≤μ≤x+1.96(σ/n的方根)

    第16章总结
    1、观测数据(样本)中计算的方差叫作样本方差
    2、计算样本方差s2的步骤如下:
    1)首先计算样本均值
    2)其次从各样本中减去样本均值,作偏差
    3)将各偏差进行平方再合计,除以样本数
    公式写作:
    (样本方差s2)=[(偏差1)的平方+(偏差2)的平方+...+(偏差n)的平方]/n
    3、自由度n的卡方分布的V
    对于标准正态母如何中n个样本x1、x2...xn,将它们平方再合计
    V=X1的平方+x2的平方+...+xn的平方
    得到统计量V呈自由度n的卡方分布
    4、卡方分布的V,只出现0以上的值。另外,距0近的数值的相对频数大,距0远的数值的相对频数急剧减小。

    第17章总结
    1、由一般正态母如何作卡方分布V的方法
    从总体均值μ,总体标准差σ的正态母群体中观测n个样本x1、x2...xn计算
    V=((x1-μ)/σ)的平方+((x2-μ)/σ)的平方+...+((xn-μ)/σ)的平方求V,得统计量V是自由度n的卡方分布。
    2、从已知总体均值μ的正态母群体中的n个数据估计总体方差σ2的95%置信区间,可按照以下步骤。
    1)由n个数据使用1的方法计算V。V是(数字/σ2)的形式。
    2)从图中可求自由度n的卡方分布的95%预测命中区间为a以上b以下的形式。
    3)解不等式a<=数字/σ2<=b,求σ2

    第18章总结
    1、新统计量W如下定义
    W=[(样本)-(样本均值)]的平方÷(总体方差)的和=(x1-x)的平方/σ2+(x2-x)的平方/σ2+..+(xn-x)的平方/σ2
    2、样本方差和W的关系式
    1)样本方差s2=W*(总体方差σ2)÷n
    2)W=(样本方差s2)×(数据数n)÷(总体方差σ2)
    3、由一般正态母群体作卡方分布的方法
    从总体均值为μ、总体标准差为σ的正态母如何中观测n个样本x1、x2...xn作
    W=[(样本)-(样本均值)]的平方÷(总体方差)的和=(x1-x)的平方/σ2+(x2-x)的平方/σ2+..+(xn-x)的平方/σ2
    得W是呈自由度(n-1)卡方分布的统计量
    4、由一般正态母群体的样本方差作卡方分布W的方法
    从总体均值为μ,总体标准差为σ的正态母群体观测n个样本计算得样本方差s2时,作
    W=(样本方差s2)X(数据数n)÷(总体方差σ2)
    得W是呈自由度(n-1)卡方分布的统计量

    总体均值对未知的正态母群体的总体方差进行区间估计的方法
    1)首先从n个观测数据计算样本均值x。其次使用它作偏差,将其平方和除以n,计算亲本方差s2
    2)样本方差s2乘以n再除以总体方差σ2作统计量W
    3)确认自由度(n-1)的95%预测命中区间
    4)保留能使W进入步骤3区间的σ2,舍掉不能的,求总体方差σ2的95%置信区间。

    第20章 总结
    1、由总体均值μ和样本得统计量T的计算
    设总体均值为μ的正态母群体中n个样本的样本均值x,样本标准差为s,计算得T=(x-μ)(n-1)的方根÷s
    =(样本均值-总体均值)÷(样本标准差)X自由度的根方
    服从自由度(n-1)的t分布

    2、t分布是清楚相对频数分布。虽然与正态分布几乎是同样的形状,但与正态分布相比,t分布是更缓和的山形。好顶端略低,山脚略高。

    第21章总结
    1、T=(样本均值-总体均值)÷(样本标准差)X(n-1)的方根是服从自由度为n-1的t分布
    2、利用t分布估计正态母群体的总体均值的方法:
    1)从所得的n个样本计算样本均值x和样本标准差s
    2)使用样本均值x样本标准差s和想要估计的总体均值μ,按照如下计算服从自由度n-1的t分布的统计量T
    T=(x-μ)÷s×(n-1)的根方
    3)在图21-1查自由度n-1的95%预测命中区间,作-α≤T≤+α这样的预测区间
    4)解-α≤(x-μ)(n-1)的方根÷s≤+α中μ,即为95%置信区间。

  • 相关阅读:
    [转]王垠的过去和现状
    支持向量机(SVM)基础
    C语言编程心得
    Fortran学习心得
    gdb使用心得
    大道至简第一章读后感
    第一个音符
    Exercise 1.20 最大公约数算法
    Exercise 1.19 Fast Fibonacci
    Exercise 1.16 1.17 1.18
  • 原文地址:https://www.cnblogs.com/wdkshy/p/9928938.html
Copyright © 2011-2022 走看看