数据的属性
数据对象
- 样本
- 实例
- 数据点
- 对象
数据对象用属性描述。数据表的行对应数据对象;列对应属性
属性
- 标称属性
类别,状态或事物的名字,每个值代表某个类别、编码或状态,这些值不必具有有意义的序,可以看做是枚举的。
可以用数值表示这些符号或名称,但并不定量地使用这些数。 - 二元属性
布尔属性,是一种标称属性,只有两个状态:0或1
对称:二元属性的两种状态具有同等价值,且具有相同的权重,例如:性别
非对称:二元属性其状态的结果不是同样重要,例如阳性和阴性,重要的结果用1编码 - 序数属性
其可能的值之间具有有意义的序或者秩评定,但是相继值之间的差是未知的
例如:军衔、职称、主观质量评估 - 数值属性(区间标度属性、比率标度属性)
区间标度:使用相等的单位尺度度量。值有序,可以评估值之间的差,不能评估倍数。没有绝对的零点。
如:温度、日期
比率标度:具有固定零点的数值属性。值有序,可以评估值之间的差,也可以说一个值是另一个的倍数。
数据的基本统计描述
中心趋势度量
- 均值
一般指算术平均数,是表示一组数据集中趋势的度量,是指在一组数据中所有数据之和再除以这组数据的个数,它是反映数据集中趋势的一项指标。
令(x_1, x_2, dots, x_N)是某数值属性(x)的(N)个观测值,该值集合的均值为:
(ar{x} = frac{sum_{i = 1}^N x_i}{N} = frac{x_1 + x_2 + dots + x_N}{N})
截尾均值:是指在一个数列中,去掉两段的极端值后所计算的算术平均数,也称为切尾均值。截尾均值一般用于比赛评分。
加权算术平均数:对于集合中的每个值(x_i)都有一个权重(w_i)。权重反映它们所依附的对应值的意义、重要性或出现的频率
(ar{x} = frac{sum_{i = 1}^N w_ix_i}{sum_{i = 1}^N w_i} = frac{w_1x_1 + w_2x_2 + dots + w_Nx_N}{w_1 + w_2 + dots + w_N}) - 中位数
有序数据值的中间值
如果值有奇数个,取中间值;否则取中间两个数的平均值。
当观测的数量很大时,中位数的计算开销很大。我们可以计算中位数的近似值,这就引入了分组数据中位数。根据(N / 2)确定中位数所在的组。假定数据根据它们的(x_i)值划分成区间,并且已知每个区间的频率(即数据值的个数)。例如,可以根据年薪将人划分成到诸如10000-20000美元、20000-30000美元等区间。令包含中位数频率的区间为中位数区间。我们可以使用如下公式,用插值计算整个数据集的中位数的近似值:
(median = L_1 + (frac{N/2 + (sum freq)_i}{freq_{median}})width)
其中,(L_1)是中位数区间的下界,(N)是整个数据集中值的个数,((sum freq)_i)是低于中位数区间的所有区间的频率和,(freq_{median})是中位数区间的频率,而(width)是中位数区间的宽度。 - 众数
是一组数据中出现次数最频繁的值
如果出现多个众数,那么有如下经验公式:(mean - mode = 3 imes (mean - median)) - 中列数
数据集中最大值和最小值的算术平均值
数据分散度量
- 极差
是集合最大值与最小值之间的差距,即最大值减最小值后所得数据 - 分位数
取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合
给定数据分布的第k个q-分位数的值为x,使得小于x的数据值最多为k/q,而大于x的数据值最多为(q-k)/q,其中k是整数,使得0<k<q。这里有q-1个q分位数。
四分位数:Q1为下分位数,Q2为中位数,Q3为上四分位数
四分位数极差:IQR = Q3 - Q1
确定四分位数的位置:
Q1的位置 = ((n + 1) / 4 = (n + 1) imes 0.25)或(1 + (n - 1) imes 0.25)
Q2的位置 = (2 * (n + 1) / 4 = (n + 1) imes 0.5)或(1 + (n - 1) imes 0.5)
Q3的位置 = (3 * (n + 1) / 4 = (n + 1) imes 0.75)或(1 + (n - 1) imes 0.75)
n表示项数
这里为什么是n+1呢,想想中位数怎么求就知道了 - 方差
是衡量随机变量或一组数据离散程度的度量,即随机变量对于平均值的偏离程度。每个样本值与全体样本值的平均数之差的平方值的平均数。方差用来计算每一个变量(观察值)与总体均数之间的差异。
总体方差:(sigma^2 = frac{1}{N}sum_{i = 1}^N(x_i - ar{x})^2 = (frac{1}{N}sum_{i = 1}^n x_i^2)^2 - ar{x}^2)
样本方差:(s^2 = frac{1}{n - 1}sum_{i = 1}^n(x_i - ar{x})^2 = frac{1}{n - 1}[sum_{i = 1}^nx_i^2-frac{1}{n}(sum_{i = 1}^{n}x_i)^2]) - 标准差
(sigma) 是方差(sigma^2)的平方根,低标准差意味着数据观测趋向于非常靠近均值,高标准差则表示数据散布在一个大的值域中。
数据的图形显示
- 箱图(箱线图)
是一种用来描述数据分布的统计图形,可以表现观测数据的中位数、四分位数和极差等描述性统计量
识别可疑的离群点的通常规则是,挑选落在第3个四分位数之上或第1个四分位数之下至少1.5IQR处的值 - 饼图
通常用来表示整体的构成部分及各部分之间的比例关系。饼图显示一个数据系列中各项的大小与各项总和的比例关系 - 频率直方图
又称频率分布直方图,是在统计学中表示频率分布的图形 - 散点图
将样本数据点绘制在二维平面或三维空间上,根据数据点的分布特征,直观地研究变量之间的统计关系以及强弱程度