zoukankan      html  css  js  c++  java
  • 统计基础知识

    凭借记忆和百度复习一下以前学的,不断更

    20181115更新

    分布左右偏不能使用x均值估计

    箱线图-> max,min,中位数,上下四分位数

    画图的时候,要标记时间,地点,内容,标题,和编号五个要素 

    1类错误是弃真,有问题结果认为没问题

    2类错误是没问题认为有问题

    列联表分时适用于分类变量的推断,卡方检验

    统计量是样本的函数,样本不同,计算的统计量也不同

     抽样:选一个好样本,现在有种蓄水池抽样方法

    实验对照组,需要随机产生,剔除其他影响

    P值是当原假设为真时样本观察的结果

    几何平均数是用来衡量平均增长率

    自由度,独立变量的个数,也是二次型的秩

    样本方差分布于总体分布,(n-1)S2/o2~x2(n-1)

    2个西格玛可以保证95%的置信区间

    无偏性:统计量抽样分布的期望等于总体参数

    有效性:对于同一个无偏统计量,方差越小越好

    一致性:n增加时,越准确

    ————————————————————————————————————————————

    1:统计学三大分布,呵呵,没有正态,F,T,卡方分布

    F分布(F检验)用来检验方差齐性,可用直方图和p-p图来检验(spss/R),如果方差随自变量x变大而变大,说明方差不齐,各个样本的数据可能不是来自一个整体,

    比如汽车拥有量,大城市的样本多,小城市样本少,人口对于模型的影响较大,因此要做一个修正。。或者改用非参数检验

    关于正态性检验,先可以画个直方图,样本量大于50看SW检验,样本量小于50看KS检验

     T分布:自由度ν越小,t分布曲线越低平;自由度ν越大,t分布曲线越接近标准正态分布(u分布)曲线。t分布其实是由正态分布和卡方分布共同推导而来的,它的思路是样本的均值服从正态分布,而实际方差不能仅仅简单等同于样本中计算来的方差,要等同于一个服从卡方分布的方差,最后推导出了t分布。t分布中也有自由度的概念,往往取样本数减去1为自由度v。

    卡方分布:若干个随机变量的平方和服从卡方分布,用来检验随机变量是否服从其给定的概率的,服从某种分布的。貌似在列联表里有用到。

    T检测:应用于小样本的情况。中心极限定理告诉我们随着样本的容量变大,样本的均值将成正态分布,而当样本较小的时候分布则更接近t分布。

    协方差:表示X, Y 相互关系的数字特征,cov(X, Y) = E(X-EX)(Y-EY),当 cov(X, Y)>0时,表明 X与Y 正相关;当 cov(X, Y)<0时,表明X与Y负相关;当 cov(X, Y)=0时,表明X与Y不相关。

    相关系数:X、Y的协方差除以X的标准差和Y的标准差(相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差)

    变异系数:将离散程度标准化,等于均值除以方差

    大数定律:当N很大,样本均值约等于期望

    中心极限定律:不管什么分布,独立随机变量的均值分布趋近于正态分布

    正态分布的再生性:随机变量X1,X2,相互独立,服从正态分布,则,Y=X1+X2 服从正态分布

    泊松分布:一段时间内或者一定空间内事件的发生次数的对应概率。

     

  • 相关阅读:
    每天读一遍,坚持30天,和老外交流没问题!
    网络数据原来是这么传输的(结合动画解析)
    技术创新驱动发展 思岚科技入选“科技独角兽百人团”
    获取当前数据库所有表的外键创建脚本、获取指定表的创建脚本,包括表和字段的属性、外键
    009深入理解CPU位数和操作系统位数,总线等等关系
    008_32位系统和64位系统有什么区别?
    007_计算机总线
    006_查看window实际支持的最大内存
    005_为何64位下一个指针大小为8个字节和32/64位系统的关系
    Kotlin 委托(2)变量委托是什么、自定义变量委托
  • 原文地址:https://www.cnblogs.com/marszhw/p/9958023.html
Copyright © 2011-2022 走看看