zoukankan      html  css  js  c++  java
  • 常见统计估计概念和区别

    一、 常见检验

    1. 独立性检验针对于类别型变量,基于频数表或者列联表来判断两个因素之间的独立性。原假设是两个因素相互独立,P(AB) = P(A)*P(B)。如果得到的P值比较大,说明原假设不独立,可以进而计算Phi系数,列联系数和Cramer's  V系数等来判断相关性

    2. 相关性的显著性检验是针对定量变量,对定量变量计算出相关系数之后,来计算对于原来的假设,变量间不相关(即总体的相关系数为0),来进行检验的工具,R中自带的工具为cor.test()

    3. T检验是一种针对正态分布的参数方法,和1,2两种检验解决解决的问题不同,它是针对均值的检验

    举例:

    当有四组数据性别,地区,年龄,血糖

    1. 当想要研究相别,地区与年龄关系,由于性别和地区是类别型变量可以使用独立性检验

    2. 当要研究某一地区内男性的年龄和血糖的关系,由于年龄和血糖变量是定量变量,可以计算相关性然后用相关性检验

    3. 当要研究某一年龄段,不同地区男性之间的血糖是否处于同一水平可以采用T检验

    二、P值的意义

    基本原理:

    1、一个命题只能证伪,不能证明为真

    2、在一次观测中,小概率事件不可能发生

    3、在一次观测中,如果小概率事件发生了,那就是假设命题为假

    证明逻辑就是:我要证明命题为真->证明该命题的否命题为假->在否命题的假设下,观察到小概率事件发生了->否命题被推翻->原命题为真->搞定。

    结合这个例子来看:证明A是合格的投手-》证明“A不是合格投手”的命题为假-》观察到一个事件(比如A连续10次投中10环),而这个事件在“A不是合格投手”的假设下,概率为p,小于0.05->小概率事件发生,否命题被推翻。

    可以看到p越小-》这个事件越是小概率事件-》否命题越可能被推翻-》原命题越可信

    作者:吉米多维奇
    链接:https://www.zhihu.com/question/23149768/answer/31704861
    来源:知乎
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
  • 相关阅读:
    【大数据】中文词频统计
    【大数据】复合数据类型,英文词频统计
    Hadoop综合大作业
    分布式文件系统HDFS练习
    安装关系型数据库MySQL 安装大数据处理框架Hadoop
    爬取全部的校园新闻
    作业六|获取一篇新闻的全部信息
    理解爬虫原理
    作业——04 中文词频统计
    复合数据类型,英文词频统计
  • 原文地址:https://www.cnblogs.com/vincentcheng/p/7657454.html
Copyright © 2011-2022 走看看