zoukankan      html  css  js  c++  java
  • 【数据分析】统计学知识汇总(不断学习中……)

     【Tips】:转载汇总,参考链接见最后,强烈建议看看原链接,可以收获很多

    1.基本概念

    • 平均值:所有数据相加 / 数据个数
    • 中位数:将数据升序排列,数据项个数为奇数时取中间数,为偶数时取中间两数平均值
    • 众数:出现次数最多的数
    • 四分位数:数据升序,位于第25%位置的叫做第一四分位数Q1,位于第50%位置的叫做第二四分位数Q2,位于第75%的叫做第三分位数Q3
    • 方差:各个数据分别与其平均数之差的平方和的平均数
      • 方差越小,数据的离散程度越小,数据越稳定
    • 标准差:方差开方
    • 频数分布:表示互不重叠的组别中每一组项目的个数(若是分类,则是每类数据的总数)
    • 偏态:数据的分布情况
      • 如果平均数大于众数,称为正偏态/左偏态;相反,则称为负偏态/右偏态
    • 概率:描述事件发生的可能性,取值在0-1之间
    • 排列组合
    • 事件:样本空间的一个子集
    • 互斥事件:在试验中两个事件A、B不可能同时发生,可能有多于两种可能
    • 独立事件:事件(A或B)是否发生对事件(B或A)发生的概率没有影响
    • 对立事件:一件事有两种可能,不是A,就是B
    • 条件概率:某个事件A发生的可能性受到另外一个事件B的影响,记作P(A|B)
    • 概率公式
      • 加法公式:P(A∪B) = P(A)+P(B) - P(A∩B)
      • 乘法公式:相互独立的情况下 P(AB)=P(A)P(B)
      • 条件概率:
      • 贝叶斯公式: 
    •  随机变量:试验的结果,将每一个可能出现的试验结果赋予了一个数值,包含离散型随机变量和连续型随机变量

    • 离散型期望
    • 离散型方差
    • 二项分布(离散型)
      • 当我们要计算抛硬币n次,恰巧有x次正面朝上的概率:
      • 期望为E(x) = np,方差Var(x) = np(1-p)
    •  泊松分布(离散型)

      • 成立条件是在任意两个长度相等的区间中,时间发生的概率是相同的,并且事件是否发生都是相互独立的
      • x代表发生x次,u代表发生次数的数学期望,概率函数为:
      • 数学期望和方差相等
    • 正态分布(连续型)
      • u代表均值,σ代表标准差:
      • 均值表示正态分布的左右偏移,标准差决定曲线的宽度和平坦,标准差越大曲线越平坦
      • 正态随机变量有69.3%的值在均值加减一个标准差的范围内,95.4%的值在两个标准差内,99.7%的值在三个标准差内

      • 均值u=0,标准差σ=1的正态分布叫做标准正态分布:
    • 累计分布函数
      • P(X<=x)表示随机变量小于或者等于某个数值的概率,F(x) = P(X<=x)

      • 概率密度函数的积分
    • 抽样:通过样本来推断总体,抽样结果提供的仅仅是相应总体特征的估计
    • 点估计:把总体的平均值标准差等称为总体参数,把样本的种种指标称为点估计量
      • 是样本标准差,σ是总体标准差。n是样本,N是总体
      • 点估计在原有的符号上加横线表示,比如样本均值,念做x拔
      • 样本均值x拔是一个随机变量,称它的概率分布为x拔的抽样分布
      • 每次抽样得出的不同均值,必然会有一个期望值,E(x拔) = u,E(x拔)就是所有大量抽样的可能值的均值
      • 根据统计学中的中心极限定理,当样本数足够时(n>30),x拔的抽样分布可近似于正态分布
    • 无偏估计:当点估计量的期望值等于总体参数时,称为无偏估计
    • 样本标准差
      • 当样本量占总体5%以上时,有求样本标准差公式:
      • 当样本量占总体5%以下时,公式可以简化成:
    • 区间估计
      • 通过区间值估计总体情况
      • 总体均值的区间估计公式:
    • 置信水平:Zσ/2,之所以除2是因为正态分布左右对称
      • 为了获得更高的置信水平,必然会得到更宽的置信区间
    • 假设检验
      • 对总体参数做一个尝试性的假设
      • 该尝试性的假设称为原假设,然后定义一个和原假设完全对立的假设叫做备选假设
      • 假设检验就是通过样本数据对两个对立假设进行检验

    2.各种定理

    (1)切比雪夫定理

    • 至少有75%的数据值与平均数的距离在2个标准差以内,至少有89%的数据与平均数在3个标准差之内,至少有94%的数据与平均数在4个标准差以内
    • 可以快速掌握数据的范围
    • 如果数据本身符合正态(钟形)分布
      • 68%的数据落在距离平均数1个标准差内,95%的数据值落在距离平均数2个标准差之内,几乎所有的数据落在3个标准差内

    3.图表相关

    (1)箱线图

    •  需要数据:最小值、第一四分位数Q1、中位数、第三四分位数Q3、最大值
    • 下边缘:最小值;上边缘:最大值
    • 定义四分位差IQR=Q3(75%分位数)—Q1(25%分位数),箱线图的界限在(Q1-1.5IQR,Q3+1.5个IQR)处
      • 界限外部所有值均为异常值
    • 箱线图可以读出数据的整体分布和倾斜趋势

     (2)直方图

      

    • 标准型:中间高,两边低,呈中间的集中趋势,代表一种稳定正常的形态
    • 双峰型:一般是混合了多种数据源或者类别数据造成的

       

    • 锯齿型:一般是观察数据的手段和方法不稳定,才会造成直方图的波动
    • 孤岛型:一般是业务上的非正常错误,比如工程零部件出了问题、产品出现了某Bug,造成凸出一块

        

    • 陡壁型:往往是数据源缺失,或者被剔除一部分后,造成这种断崖式的折断
    • 偏锋型:分为左偏峰和右偏峰。我们也把它称呼为偏态,上图是一个右偏态

    参考链接

  • 相关阅读:
    PHP实现同array_column一样的功能
    PHP使用FTP上传文件到服务器(实战篇)
    PHP计算今天、昨天、本周、本月、上月开始时间和结束时间
    PHP计算两个日期相差的年月日时分秒
    mysql命令行复制数据库
    Mysql中反引号和单引号的区别
    Linux 使用 selenium 环境配置
    SVN 提交文件报错:svn: E155015: Aborting commit:
    Django:Nginx 启动,无法加载样式,无法加载静态文件
    Django:Could not find backend 'django_redis.cache.RedisCache': cannot import name 'six'
  • 原文地址:https://www.cnblogs.com/tuzinn/p/13972384.html
Copyright © 2011-2022 走看看