机器学习十讲——第八讲维度灾难
那么,什么是维度灾难呢?
从上图的图二看出,高维空间中,大部分体积分布在球体表面,从图一也能看出,剥离出0.1个单位的长度后,纬度越高,体积占比越小;
在高维空间中,“距离”可能失效,尤其表现在欧式距离,所以在高纬时,传统的机器学习可能失去作
这些模型,纬度一高就会受到影响,都有维度灾难问题。
例子:
关于如何应对维度灾难:
当有些问题不能解决时,可以尽量避免
还有一种方法:核技巧
高维空间里样本点距离都很稀疏,所以相对来说更容易分开,例如下图的右边的两个图:
这可以让我们利用高纬的好处的同时使用低纬的计算量,那么 如何判断机器学习模型是否存在维度灾难呢?
要估计模型的泛化误差和经验误差
n是样本数量,m是函数空间的纬度,f可以看成一个系数。
三个例子:
最后就是每日实验咯。