欧式距离很常用,分离器最后计算时很多都是用欧式距离,
公式:
[(x1-x2)^2+(y1-y2)^2]^1/2
但是很多时候,特征的各个维度(属性)的数值差异很大,比如身高,体重,有时候我们常用标准化来解决,比如求取每种特征的Max和Min,然后用特征的值去除以(Max-Min),得到的就是标准化后的值。而马氏距离,采用里另一种方法,通过对差异乘各属性的协方差矩阵,来保持各个属性的差异,公式:
{[(x1-x2)^2+(y1-y2)^2]S^-1}^1/2
其中S是样本字典的协方差矩阵,如果了解PCA原理,这个S和PCA常用的SCORE是一个作用(其实都是协方差矩阵),特征*SCORE就会被转换到同一维度,所以SCORE也叫做转换矩阵。如果S是一个E,那么还是简单的欧式距离,如果是一个对角矩阵,就是标准化的欧式距离了。
这样的优点就是消除了量纲的影响,使马氏距离与原始数据的测量单位无关,结果和标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。缺点:它的缺点是夸大了变化微小的变量的作用。