zoukankan      html  css  js  c++  java
  • 数据分析概况02:《深入浅出统计学》——基本统计量1

    1.信息图形化:直方图,概率密度函数和累积分布函数
    直方图用于显示分组数值型数据,直方图用于表示定量数据,矩形之间没有间隔,数值通过连续的数字标度表示,长方形的面积与频数成正比(当数据区间宽度各不相等时,每个长方形的宽度反映每个区间的宽度,长方形的高度反映区间的频数密度
     
    概率密度分布函数(PDF):直方图归一化的结果。
    累积分布函数(CDF):累积频数归一化的结果.(折线图)
     
    2.集中趋势的量度——平均数(均值μ,中位数,众数)
    平均数 计算方法 何时使用
    均值μ μ=∑X/n=∑fX/∑f
    在数据非常对称,且仅显示出一种趋势时使用。
    均值对于异常值(极值)不敏感,但是对于抽样数据更加稳定。
    中位数 按顺序排列数字,从最小排列到最大值;如果有奇数个数值,则中位数为位于中间的数值。如果有n个数,则中位数的位置为(n+1)/2;若果有偶数个数值,则将两个中间数相加,然后除以2.中间位置的算法是:(n+1)/2,两个中间数分别位于这个中间位置的两侧。
    在数据非常对称,且仅显示出一种趋势时使用。
    均值对于异常值(极值)不敏感,但是对于抽样数据更加稳定。
    众数 频数最大的数值。众数可能不止一个。如果有一个以上的数值具有最大频数,则每一个这样的数值都是众数。如果数据看上去体现了多种趋势或多批数据,则为每批数据给出一个众数。 在遇到类别数据时使用。当数据可以分为两个或更多组时使用。
     
    分散性:全距,四分位距等3.分散性与变异性
    全距(极差):使用全距区分数据集,仅描述了数据的宽度,没有描述数据的分布形态.
    四分位距:上四分位数-下四分位数,与全距相比,较少受到异常值。(下四分位数:n/4,若为整数,则取n/4这个位置和下个位置的中间,取这两个位置上的数值的平均值;若不为整数,则向上取整。上四分位数:3n/4,若为整数,则为3n/4这个位置和下个位置的中间,取这两个位置上的数值的平均值;若不为整数,向上取整。
    箱线图绘制各种“距”,显示数据的全距,四分位距以及中位数。
     
     
    变异性:观察每个数值与均值的距离。越小与均值越接近。
    平均距离:正负距离容易相互抵消。
    方差:防止距离与距离之间相互抵消。
    方差=∑(X-μ )2/n=∑(X-μ )(X-μ ) /n=∑x2/n-μ2
    标准差(σ)=√方差
    标准分:z=(x-μ)/σ
    比较不同数据集中的数据,对不同环境下的相关数据进行比较,将这些数据集转换成更通用的分布形态(均值为0,标准差为1 ),同时确保基本形状不变。
     
    异常值监测:异常值定义为偏离均值三个标准差(数值的标准分不在-3和3之间)的数值。
  • 相关阅读:
    函数和函数模版在一个。cpp中的情况!(除了左移和右移,其他的不要用友元函数!!!)
    const typedef 和指针的问题(这里必须初始化的才初始化了,不必须的则没有初始化)
    const constptr 和引用的盲点(未解决)
    对于数据流建模和行为级建模的梳理(重点)
    vivado实现模16的计数器
    用vivado实现4比特加法器
    三输入或门(发现这个玩意很不好耍,编程出现错误,不知道哪里出现的,一不小心2输成3也无法查证)
    SpringMVC第一个例子
    Mybatis与Spring的mapper代理整合方法
    Mybatis与Spring的原生Dao整合
  • 原文地址:https://www.cnblogs.com/alicia-Programming/p/5191539.html
Copyright © 2011-2022 走看看