zoukankan      html  css  js  c++  java
  • 笔记 《面向数据科学家的实用统计学》

    《一、探索性数据分析》

    【1.3 位置估计】

    平均值:所有数的总和除以个数

    加权平均值:所有数的加权和除以权值和

    中位数:使得数据集有一半的数位于该值之上和之下

    加权中位数:使得数据集有一半的权重之和位于该值 之上和之下

    切尾均值:去除最大和最小的若干值后的平均值

    离群值:与大部分数差异较大的值

    【1.4 变异性估计】

    偏差:位置的观测值和估计值的差距

    方差:n个数据距离均值的偏差的平方和,再除以n-1

    标准差:方差的平方根

    平均绝对偏差:数据距离均值的绝对值的平均数

    中位数绝对偏差:数据距离均值的绝对值的中位数

    极差:最大数和最小数的差距

    百分位数:P%的数小于该数,100-P%的数大于该数

    【1.5 探索数据分布】

    箱线图:箱顶为75百分位数,箱底25百分位数,箱中线为50百分位数

    直方图:将极差等分,根据间隔内出现频次绘图

    密度图:基于直方图的平滑表示,基于某种核密度估计

    【1.6 探索分类数据和二元数据】

    众数:数据中出现次数最多的数或类别

    期望值:如果类别与一个数据关联,可以根据类别出现的概率计算一个平均值

    条形图:表示各个类别出现的频数

    饼状图:条形图的另一种表示

    【1.7 相关性】

    相关系数:衡量两个变量的相关性,介于-1到1之间

    皮尔逊相关系数:两个变量的对应值的偏差乘积和除以两变量的方差,再除以n-1

    相关矩阵:多个变量两两相关系数构成的矩阵

    散点图:用x轴表示一个变量的值,用y轴表示另一个变量的值

    【1.8 探索两个及以上的变量】

    列联表:对两个或两个以上变量进行联结计数的表格

    六边形图、等势图、热力图:密度图的多维扩展

    小提琴图:箱线图的扩展

     《二、数据和抽样分布》

    【2.1 随机抽样和样本偏差】

    总体:一个大型数据集,或者一个假想大型数据集

    样本:总体的子集

    随机采样:从总体中随机选取元素到样本

    分层采用:对总体分层,在每层中进行随机采样

    简单随机采样:不分层的情况下随机采样

    样本偏差:样本对总体做出了错误的解释

    【2.2 选择偏差】

    选择偏差:以可导致误导性和短暂性结论的方式,有选择性的采样

    数据窥探:为了得到感兴趣的结果,在大量数据中反复查找

    大规模搜索效应:反复数据建模或搜索导致的数据偏差或不可复现性结论

    趋均值回归:对同一变量进行连续测量,在极端测量值后,往往会出现更趋向于中心值的观测值

    【2.3 统计量的抽样分布】

    样本统计量:样本中一些数据的度量值

    数据分布:一个值在数据集中的频数分布

    抽样分布:一个样本统计量在不同样本中的频数分布

    中心极限定理:无论数据分布如何,当样本量足够大时,抽样分布趋向于正态分布

    标准误差:不同样本间的偏差

    【2.4 自助法】

    Bootstrap:有放回的采样

    Bagging:Bootstrap Aggregating,多次有放回的采样,改善模型预测性能

    【2.5 置信区间】

    置信区间:自助法是一种通用的衡量方法,可以帮助判断样本量大小是否合适

    【2.6 正态分布】

    标准化:数据减去均值除以标准差

    z分数:单个数据点标准化的结果

    标准正态分布:均值为0,标准差为1的正态分布

    QQ图:将数据标准化,y轴为数据的z分数,x轴为数据排序后对应标准正态分布的分位数,如果数据基本分布在对角线,则说明基本符合正态分布

    【2.7 长尾分布】

    尾:一个频数分布的狭长部分

    偏斜:分布的一个尾部大于另一个尾部

    长尾分布:数据趋向于均值时,近似于正态分布,但趋向于极值时,频数远大于正态分布

    【2.8 学生t分布】

    【2.9 二项分布】

    二项分布:多次重复同一结果为1或0的实验,结果为1的次数的分布

    【2.10 泊松分布及其相关分布】

    泊松分布:已知单位时间内平均发生次数,一段时间内发生次数的分布

    指数分布:已知单位时间内平均发生次数,相邻两次发生的时间间隔的分布

    《三、统计实验与显著性检验》

    【3.1 A/B测试】

    实验组:执行特定处理的一组对象

    对照组:执行标准处理或不执行处理的一组对象

    随机化:随机地分配实验对象以进行处理的过程

    检验统计量:用于检验处理效果的度量

    【3.2 假设检验】

    零假设:完全归因于偶然性的假设

    备择假设:与零假设相反,希望证实的假设

    单向检验:在假设检验中,只从一个方向上计数偶然性结果

    双向检验:在假设检验中,从正反两个方向上计数偶然性结果

    【3.3 重抽样】

    置换检验:将多组样本组合在一起,随机重新采样分组,统计组间差异分布,判断统计显著性

    【3.4 统计显著性和p值】

    p值:在模型中加入零假设,观测结果比随机模型生成结果更极端的概率

    a值:p值的门限

    【3.5 t检验】

    t统计量:通过样本均值、方差、样本数等得到的归一化的检验统计量,可以查表得到p值

    【3.6 多重检验】

    第一类错误:将随机产生的结果判定为统计显著,按照概率,如果从足够多的的视角去观察数据,总可以发现具有统计显著性的结果,犯错误

    错误发现率:在多重检验中,犯第一类错误的比率,增加交叉验证可以降低得到虚假显著性结论的风险,如果没有已标记的验证集,则应意识到对数据的查询和操作越多,越可能得到虚假显著性结论

    【3.7 自由度】

    自由度:对统计检验意义不大,因为数据规模一般很大,但对于回归问题可能会产生多重共线性,要考虑自由度

    【3.8 方差分析】

    多项检验:多项实验中,如果两两对比,则很容易造成虚假显著性,可以对所有组数据合并再反复抽取,计算组间均值的方差,得到均值方差的分布,与观测各组均值方差做对比

    【3.9 卡方检验】

    皮尔逊残差:分组统计数据与合并所有组后的统计数据(零假设得出的期望)的差,除以后者的开方

    卡方检验:对所有组数据合并再反复抽取,计算皮尔逊残差的平方和,得到皮尔逊残差平方和分布,与观测各组皮尔逊残差平方和做对比

    费舍尔精确检验:数据量较小时通过精确计算每种交叉情况的概率得到p值

     【3.10 多臂老虎 机算法】

    多臂老虎 机:以某种概率选择当前最优分组,其余机会选择探索所有分组以得到统计数据,发现最优分组

    【3.11 检验效能和样本规模】

    效果规模:在统计检验中,期望能检测到的效果的最小差距

    检验效能:给定样本规模,检测到给定效果规模的概率,可以通过假设样本数据,给定样本数,然后置换假设检验得到

  • 相关阅读:
    LeetCode: Number Complement
    LeetCode: Hamming Distance
    LeetCode: Sum of Left Leaves
    LeetCode: Ransom Note
    LeetCode: Minimum Moves to Equal Array Elements
    LeetCode: Linked List Random Node
    LeetCode: Product of Array Except Self
    LeetCode:Two Sum II
    LeetCode: Minimum Moves to Equal Array Elements II
    杂记 -- 时间段内应用程序调用次数限制
  • 原文地址:https://www.cnblogs.com/jhc888007/p/11624220.html
Copyright © 2011-2022 走看看