【数据分析】统计学知识汇总（不断学习中……）

zoukankan html css js c++ java

【数据分析】统计学知识汇总（不断学习中……）
【Tips】：转载汇总，参考链接见最后，强烈建议看看原链接，可以收获很多

1.基本概念
- 平均值：所有数据相加 / 数据个数
- 中位数：将数据升序排列，数据项个数为奇数时取中间数，为偶数时取中间两数平均值
- 众数：出现次数最多的数
- 四分位数：数据升序，位于第25%位置的叫做第一四分位数Q1，位于第50%位置的叫做第二四分位数Q2，位于第75%的叫做第三分位数Q3
- 方差：各个数据分别与其平均数之差的平方和的平均数
  
  方差越小，数据的离散程度越小，数据越稳定
- 标准差：方差开方
- 频数分布：表示互不重叠的组别中每一组项目的个数（若是分类，则是每类数据的总数）
- 偏态：数据的分布情况
  
  如果平均数大于众数，称为正偏态／左偏态；相反，则称为负偏态／右偏态
- 概率：描述事件发生的可能性，取值在0-1之间
- 排列组合
- 事件：样本空间的一个子集
- 互斥事件：在试验中两个事件A、B不可能同时发生，可能有多于两种可能
- 独立事件：事件（A或B）是否发生对事件（B或A）发生的概率没有影响
- 对立事件：一件事有两种可能，不是A，就是B
- 条件概率：某个事件A发生的可能性受到另外一个事件B的影响，记作P(A|B)
- 概率公式
  
  加法公式：P(A∪B) = P(A)+P(B) - P(A∩B)
  
  乘法公式：相互独立的情况下 P(AB)=P(A)P(B)
  
  条件概率：
  
  贝叶斯公式：
- 随机变量：试验的结果，将每一个可能出现的试验结果赋予了一个数值，包含离散型随机变量和连续型随机变量
- 离散型期望：
- 离散型方差：
- 二项分布（离散型）
  
  当我们要计算抛硬币n次，恰巧有x次正面朝上的概率：
  
  期望为E(x) = np，方差Var(x) = np(1-p)
- 泊松分布（离散型）
  
  成立条件是在任意两个长度相等的区间中，时间发生的概率是相同的，并且事件是否发生都是相互独立的
  
  x代表发生x次，u代表发生次数的数学期望，概率函数为：
  
  数学期望和方差相等
- 正态分布（连续型）
  
  u代表均值，σ代表标准差：
  
  均值表示正态分布的左右偏移，标准差决定曲线的宽度和平坦，标准差越大曲线越平坦
  
  正态随机变量有69.3%的值在均值加减一个标准差的范围内，95.4%的值在两个标准差内，99.7%的值在三个标准差内
  
  均值u=0，标准差σ=1的正态分布叫做标准正态分布：
- 累计分布函数
  
  P(X<=x)表示随机变量小于或者等于某个数值的概率，F(x) = P(X<=x)
  
  概率密度函数的积分
- 抽样：通过样本来推断总体，抽样结果提供的仅仅是相应总体特征的估计
- 点估计：把总体的平均值标准差等称为总体参数，把样本的种种指标称为点估计量
  
  是样本标准差，σ是总体标准差。n是样本，N是总体
  
  点估计在原有的符号上加横线表示，比如样本均值，念做x拔
  
  样本均值x拔是一个随机变量，称它的概率分布为x拔的抽样分布
  
  每次抽样得出的不同均值，必然会有一个期望值，E(x拔) = u，E(x拔)就是所有大量抽样的可能值的均值
  
  根据统计学中的中心极限定理，当样本数足够时（n>30），x拔的抽样分布可近似于正态分布
- 无偏估计：当点估计量的期望值等于总体参数时，称为无偏估计
- 样本标准差
  
  当样本量占总体5%以上时，有求样本标准差公式：
  
  当样本量占总体5%以下时，公式可以简化成：
- 区间估计
  
  通过区间值估计总体情况
  
  总体均值的区间估计公式：
- 置信水平：Zσ/2，之所以除2是因为正态分布左右对称
  
  为了获得更高的置信水平，必然会得到更宽的置信区间
- 假设检验
  
  对总体参数做一个尝试性的假设
  
  该尝试性的假设称为原假设，然后定义一个和原假设完全对立的假设叫做备选假设
  
  假设检验就是通过样本数据对两个对立假设进行检验
2.各种定理

（1）切比雪夫定理
- 至少有75%的数据值与平均数的距离在2个标准差以内，至少有89%的数据与平均数在3个标准差之内，至少有94%的数据与平均数在4个标准差以内
- 可以快速掌握数据的范围
- 如果数据本身符合正态（钟形）分布
  
  68%的数据落在距离平均数1个标准差内，95%的数据值落在距离平均数2个标准差之内，几乎所有的数据落在3个标准差内
3.图表相关

（1）箱线图
- 需要数据：最小值、第一四分位数Q1、中位数、第三四分位数Q3、最大值
- 下边缘：最小值；上边缘：最大值
- 定义四分位差IQR=Q3（75%分位数）—Q1（25%分位数），箱线图的界限在（Q1-1.5IQR，Q3+1.5个IQR）处
  
  界限外部所有值均为异常值
- 箱线图可以读出数据的整体分布和倾斜趋势
（2）直方图
- 标准型：中间高，两边低，呈中间的集中趋势，代表一种稳定正常的形态
- 双峰型：一般是混合了多种数据源或者类别数据造成的
- 锯齿型：一般是观察数据的手段和方法不稳定，才会造成直方图的波动
- 孤岛型：一般是业务上的非正常错误，比如工程零部件出了问题、产品出现了某Bug，造成凸出一块
- 陡壁型：往往是数据源缺失，或者被剔除一部分后，造成这种断崖式的折断
- 偏锋型：分为左偏峰和右偏峰。我们也把它称呼为偏态，上图是一个右偏态
参考链接
- 描述统计：https://mp.weixin.qq.com/s/watt4veiF3NVw2cBpF3f8w
- 描述统计（2）：https://mp.weixin.qq.com/s/waoel4g6vwM1Nsao7qvA7g
- 箱线图：https://baike.baidu.com/item/%E7%AE%B1%E5%BD%A2%E5%9B%BE/10671164?fromtitle=%E7%AE%B1%E7%BA%BF%E5%9B%BE&fromid=10101649&fr=aladdin
- 对立、互斥事件：https://www.zhihu.com/question/290506686
- 概率论入门：https://mp.weixin.qq.com/s/jjrOg1CoqlYHrWJe3rRPDQ
- 概率分布：https://mp.weixin.qq.com/s/39Bm5voRoAkaoxnaCzR3Ag
- 假设检验：https://mp.weixin.qq.com/s/21sSP7lzXEEQhjpw3uc3ag
查看全文

相关阅读:
1.23学习总结：文件流
 vue-router重写push方法，解决相同路径跳转报错，解决点击菜单栏打开外部链接
 手把手教Electron+vue，打包vue项目，打包成桌面程序。
后台获取的map集合封装json
VUE同级组件之前方法调用
 字节跳动今日头条-抖音小程序序html富文本显示解决办法
 别总写代码，这130个网站比涨工资都重要
 vue 组件之间的自定义方法互相调用
 swiper轮播图出现疯狂抖动（小程序）
vue通过地址下载文件

原文地址：https://www.cnblogs.com/tuzinn/p/13972384.html

【数据分析】统计学知识汇总（不断学习中……）

1.基本概念

2.各种定理

（1）切比雪夫定理

3.图表相关

（1）箱线图

（2）直方图

参考链接