学习集中趋势的三种量度:均值、中位数和众数。
下图是护理专业薪资和地理专业薪资的频率分布,假设这些直方图是使用护理或地理专业的所有人的数据而创建的,x 轴代表其年收入,单位是千美元,从这些分布中,
大多数护理专业(毕业生,Nursing Majors)的收入大概是多少?
大多数地理专业(毕业生,Geography Majors)的收入大概是多少?
用这些分布来判断,看起来大多数护理专业学生每年能挣50,000到60,000之间,所以,如果说出这两个数字之间的数字,那么就没错,但对于大多数地理专业学生来说,应该在40,000到可能55,000之间,我们关注分布的中心,这是大多数得分所在的位置,这个中心有点宽 你可以使用此类分布来猜测,如果你是护理或地理专业的话能挣多少钱
你如何选择一个数字或者至少一个很小范围内的数字来精确代表护理或地理专业的典型薪资水平?正确答案不止一个
A.□ 出现频率最高的值
B.□ 出现频率最低的值
C.□ 刚好分布在中间的值
D.□ x 轴上的最高值
E.□ 平均值
ACE
均值
均值是就全部数据计算的,它具有优良的数学性质,是实际中应用最广泛的集中趋势测度值.其主要缺点是易受数据极端值的影响,对于偏态分布的数据,均值的代表性较差.作为均值变形的调和平均数和几何平均数,是适用于特殊数据的代表值,调和平均数主要用于不能直接计算均值的数据,几何平均数则主要用于计算比率数据的平均数,这两个测度值与均值一样易受极端值的影响.
一般代表算术平均值。也就是:
众数
众数是一组数据分布的峰值,是一种位置代表值.其优点是易于理解,不受极端值的影响.当数据的分布具有明显的集中趋势时,尤其是对于偏态分布,众数的代表性比均值要好.其缺点是具有不唯一性,对于一组数据可能有一个众数,也可能有两个或多个众数,也可能没有众数。
中位数
中位数是一组数据中间位置上的代表值.其特点是不受数据极端值的影响.对于具有偏态分布的数据,中位数的代表性要比均值好。
在一组排好序数据中,数据数量为奇数,则中值为中间的那个数。 如果数据数量为偶数,则中值为中间的那两个数值的平均值。