zoukankan      html  css  js  c++  java
  • python数据分析于实现,单样本体检验、独立样本体检验、相关分析、列联表分析!

    1、假设检验

    做出一个假设,去验证。

    需要设定置信度,如95%

    两类错误:

    两类错误是概率

    原假设一般为等式。

    样本量的影响:

    步骤:假设—置信度—收集数据—计算p值判断

    T检验

     拒绝域和接受域。

    单样本T检验,没有数据,这个课程没有数据,很遗憾,一会在找数据从新做一遍!

     两变量

    男生和女生的月均支出是否有差异?

    方差是否相等?F检验!

    开始,t统计量!

    数据说明,目的为筛选变量

     

     

     方差分析

    教育程度对信用卡支出是否有差别?

     

    总变异说明:

    组内变异:

     组间变异:

     自己理解:总变异:(单个样本的均值 -总体样本的均值)的平方和

         组内变异: 这个组(样本的值- 这个样本所在组的均值)的平方和 + 另一组(样本的值- 这个样本所在这个组的均值)平方和

         组间变异:(每个组的均值-总体的平均值)的平方和

         我能理解,别人能不能理解我不知道,看实例很容易理解!

    F统计量

     要求,这些要达到

    数据要求,按一列一列的,所以创建这个数据,然后用F_onewasy()函数去实现!后面的值就是p值。

    这是利用statsmodels去实现也能得到方差分析的结果

    多因素方差分析

    r方

    做个线性回归就出来:

     加上交互项

     两连续变量!

     相关分析:

    散点图:看是否线性。是否相关。先大概看看!

    相关系数介绍,用最多pearson。

    相关系数的计算

    相关系数与相关性之间关系

    相关系数的检验

    看看代码:

    散点图

    计算相关系数

    一般不去相关系数的可信度,只要样本量足。

     分类和分类的比较

    分类变量相关关系

    列联表分析

    经理脾气和天气是否相关:无

    有相关:

    违约与破产之间的分析,行轮廓是比较列

                                           列轮廓是比较行 如果相差不大,就说明影响不大。这是比较粗糙的分析。不严谨!

    用稍微严谨的方法:

    假设检验

    卡方检验1:

    卡方检验2:

    python的实现:

    这是频率表!

    数据是一个交叉表:

     以上都是总体为正太分布的。。。。。。。

    注意一下 :非正态可以考虑变成正太分布。

         :样本量不可太小,但是也不能太大。这个公式 上下都有N,样本量大了会影响统计量T的变化!

  • 相关阅读:
    格子刷油漆【动态规划问题】—NYOJ 980
    Throughput Controller
    CSV Data Set Config 详细使用说明
    nmap使用笔记
    记三个有趣的漏洞
    Windows添加右键新增.md文件
    文件上传绕过WAF
    bypass_safedog
    漏洞挖掘之爆破的艺术
    特殊后缀上传(为什么用白名单不用黑名单)
  • 原文地址:https://www.cnblogs.com/tangxianwei/p/8319948.html
Copyright © 2011-2022 走看看