zoukankan      html  css  js  c++  java
  • 统计*语

       

    1、概率(proability):度量一随机事件发生可能性大小的实数,其值介于0 与1 之间。一随机事件的慨率可看作在相同条件下重复试验时,该事件发生的频率的稳定值,也可看作对事件发生的相信程度。

    2、统计学(statistics):主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化的分析、总结,并进而进行推断和预测,为相关决策提供依据和参考。也就是收集、处理、分析、解释数据并从数据中得出结论的科学。主要又分为描述统计学和推断统计学。

    3、描述统计(Descriptive statistics):描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。目的是描述数据特征,找出数据的基本规律。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。

    4、推断统计(Inferential Statistics):推断统计是研究如何根据样本数据来推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。主要包括参数估计与假设检验两种方法。

    描述统计学和推断统计学的划分,一方面反映了统计方法发展的前后两个阶段,同时也反映了应用统计方法探索客观事物数量规律性的不同过程。

    5、数值型数据(metric data):按数字尺度测量的观察值,结果表现为具体的数值,对事物的精确测度,例如:身高为175cm、168cm、183cm。

    6、分类数据(categorical data) :只能归于某一类别的非数字型数据,对事物进行分类的结果,数据表现为类别,用文字来表述,例如,人口按性别分为男、女两类。

    7、总体(population):所研究的全部个体(数据) 的集合,其中的每一个个体也称为元素。分为有限总体和无限总体:有限总体的范围能够明确确定,且元素的数目是有限的;无限总体所包括的元素是无限的,不可数的。

    8、样本 (sample):从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本容量或样本量 (sample size)。

    9、变量(variable):说明现象某种特征的概念,如商品销售额、性别等,变量的具体表现称为变量值,即数据。变量基本分类可分为分类变量:说明事物类别的名称;数值型变量:说明事物数字特征的名称。其他分类可分为随机变量与非随机变量;经验变量和理论变量。

    10、平均数(mean):是统计学中最常用的统计量,用来表明资料中各观测值相对集中较多的中心位置,易受极端值的影响,是反映数据集中趋势的一项指标。它包括算术平均数、加权算术平均数、调和平均数和几何平均数。

    11、众数(mode):是指一组数据中出现次数最多的变量值(数据值),不受极端值的影响,一组数据可能没有众数或有几个众数。众数适合于数据量较多时,并且在数据分布偏斜程度较大且有明显峰值时应用。

    12、中位数(median):是另外一种反映数据的中心位置的指标,其确定方法是将所有数据以由小到大的顺序排列,位于中央的数据值就是中位数,不受极端值的影响。中位数在数据分布偏斜程度较大时应用。

    13、四分位数(quartile):一组数据中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的数据就是四分位数,不受极端值的影响。四分位数在统计学中的箱线图绘制方面应用较为广泛。

    14、算术平均数(Arithmetic mean)简称平均数、均数或均值,是指在一组数据中所有数据之和再除以数据的个数。它是反映数据集中趋势的一项指标。算术平均数易受极端数据的影响,这是因为平均数反应灵敏,每个数据的或大或小的变化都会影响到最终结果。

    15、加权平均数(Weighted mean)是不同比重数据的平均数,加权平均数就是把原始数据按照合理的比例来计算。加权算术平均数主要用于处理经分组整理的数据。加权算术平均数同时受到两个因素的影响,一个是各组数值的大小,另一个是各组分布频数的多少。

    16、调和平均数(Harmonic mean)

    调和平均数是总体各单位标志值倒数的算术平均数的倒数,也称倒数平均数。调和平均数易受极端值的影响,且受极小值的影响比受极大值的影响更大。只要有一个变量值为零,就不能计算调和平均数。调和平均数应用的范围较小。

    17、几何平均数(Geometric mean)

    n个变量值乘积的n次方根就是几何平均数。适用于对比率数据的平均,主要用于计算平均增长率。

    18、众数(mode)

    是指一组数据中出现次数最多的变量值(数据值),不受极端值的影响,一组数据可能没有众数或有几个众数。众数适合于数据量较多时,并且在数据分布偏斜程度较大且有明显峰值时应用。

    19、中位数(median)

    是另外一种反映数据的中心位置的指标,其确定方法是将所有数据以由小到大的顺序排列,位于中央的数据值就是中位数,不受极端值的影响。中位数在数据分布偏斜程度较大时应用。

    20、四分位数(quartile)

    一组数据中,把所有数值由小到大排列并分成四等份,处于三个分割点位置的数据就是四分位数,不受极端值的影响。四分位数在统计学中的箱线图绘制方面应用较为广泛。

    21、极差(range)

    一组数据的最大值与最小值之差,极差也称为全距。它是数据离散程度的最简单测度值,极差越大,离散程度越大,反之,离散程度越小。极差易受极端值影响,未考虑数据的分布。

    22、平均差(mean deviation)

    各标志值与其平均数离差绝对值的平均数。平均差是一种平均离差。离差是总体各单位的标志值与算术平均数之差。因离差和为零,离差的平均数不能将离差和除以离差的个数求得,而必须讲离差取绝对数来消除正负号。

    23、方差(variance)

    是各个数据与平均数之差的平方和的平均数,表示一系列数据或统计总体的分布特征的值。通俗点讲,就是和中心偏离的程度,用来衡量一批数据的波动大小(即这 批数据偏离平均数的大小)并把它叫做这组数据的方差。在样本容量相同的情况下,方差越大,说明数据的波动越大,越不稳定。

    24、标准差(Standard Deviation)

    也称均方差,是各数据偏离平均数的距离的平均数,它是离均差平方和平均后的方根。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的,标准差未必相同。

    25、变异系数(coefficient of variation)

    又称“标准差率”,表示离散程度,是标准差和相应平均数的比值,记为C.V。当进行两组或多组数据离散程度的比较时,如果度量单位与平均数相同,可以直接 利用标准差来比较。如果单位和(或)平均数不同时,比较其离散程度就不能采用标准差,而需采用标准差与平均数的比值(相对值)来比较。

    简单来说就是:在表示离散程度上,标准差并不是全能的,当度量单位或平均数不同时,只能用变异系数了,它也是表示离散程度,是标准差和相应平均数的比值。

    26、偏度(skewness)

    是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。偏度=0为对称分布,偏度> 0为右偏分布,偏度< 0为左偏分布。

    27、峰度(kurtosis)

    是用来反映频数分布曲线顶端尖峭或扁平程度的指标。有时两组数据的算术平均数、标准差和偏度都相同,但他们分布曲线顶端的高耸程度却不同。峰度=0扁平峰度适中,峰度<0为扁平分布,峰度>0为尖峰分布。

    28、分组

    根据统计研究的目的和客观现象的内在特点,按某个标志(或几个标志)把被研究的总体划分为若干个不同性质的组,称为统计分组。有等距分组和不等距分组两种方式,进行分组要遵循两个原则:穷尽原则、互斥原则。

    29、频数(frequency)

    频数是指一组数据中个别数据重复出现的次数。例如某校A班学生共50名同学,按性别进行分组,分为男与女两个组别,男同学的频数为30,女同学的频数为20。

    30、频率

    频率是每个小组的频数与数据总数的比值,它代表某组在总体中出现的频繁程度,一般采用百分数表示,所有组的频率加总等于100%。

    31、绝对数

    是反映客观现象总体在一定时间、地点条件下的总规模、总水平的综合性指标,也是数据分析中常用的指标,如GDP、总人口等。此外,绝对数也可以表现为在一定时间、地点条件下数量增减变化的绝对数,比如A国人口比B国人口多1000万人。

    32、相对数

    是指由两个有联系的指标对比计算而得到的数值,用以反映客观现象之间数量联系程度的综合指标。计算公式=比较数值(比值)/基础数值(基数)。分母是用做 对比标准的指标数值,简称基数;分子是用做与基数对比的指标数值,简称比数。相对数一般以倍数、成数、百分数等表示,它反映了客观现象之间数量联系的程 度。

    使用相对数时需要注意指标的可比性,同时要与总量指标(绝对数)结合使用。

    33、百分比(percent)

    百分比是相对数中的一种,它表示一个数是另一个数的百分之几,也称百分率或百分数。百分比通常采用百分号(%)来表示,如8%,50%,168%等。由于百分比的分母都是100,也就是都以1%作为度量单位,因此便于比较,在数据分析中的应用非常广泛。

    34、百分点

    是指不同时期以百分数的形式表示的相对指标的变动幅度,1个百分点=1%。常有人混淆了百分比与百分点的概念。表示构成的变动幅度不宜用百分数,而应用百分点。

    35、比例

    是指在总体中,各部分的数值占全部数值的比重,通常反映总体的构成和结构。比如A班共有学生50人,男生30人,女生20人,则男生的比例是30/50,女生的比例是20/50。由此可以看出,比例的基数(也就是分母)都是全体学生人数,即为同一个基数。

    36、比率
    是指不同类别数值的对比,它反映的不是部分与整体之间的关系,而是一个整体中各部分之间的关系。比如A班共有学生50人,男生30人,女生20人,则男生 与女生的比率是30/20,这一指标经常会用在社会经济领域,比如我国的人口性别比就是用每100名女性数量相对的男性数量来表示的。

    37、 倍数
    是一个数除以另一个数所得的商。如A÷B=C,就是说A是B的C倍。需要注意的是,倍数一般是表示数量的增长或上升幅度,而不适用于表示数量的减少或下降。

    38、番数
    是指原来数量的2的N次方倍。比如翻一番为原来数量的2倍(2的1次方),翻两番为4倍(2的2次方)。

    39、同比
    为与历史同时期进行比较得到的数值,该指标主要反映的是事物发展的相对情况。例如2010年12月与2009年12月相比。

    40、环比
    为与前一个统计期进行比较得到的数值,该指标主要反映的是事物逐期发展的情况。例如2010年12月与2010年11月相比。

  • 相关阅读:
    LeetCode 230. Kth Smallest Element in a BST
    LeetCode 114. Flatten Binary Tree to Linked List
    LeetCode 222. Count Complete Tree Nodes
    LeetCode 129. Sum Root to Leaf Numbers
    LeetCode 113. Path Sum II
    LeetCode 257. Binary Tree Paths
    Java Convert String & Int
    Java Annotations
    LeetCode 236. Lowest Common Ancestor of a Binary Tree
    LeetCode 235. Lowest Common Ancestor of a Binary Search Tree
  • 原文地址:https://www.cnblogs.com/xitingxie/p/5817719.html
Copyright © 2011-2022 走看看