第八讲、维度灾难
1.维度灾难 随着维度(例如特征或自由度)的增多,问题的复杂性(或计算算代价)呈指数级增长的现象。
单位球体积随纬度的变化公式:
高维空间中,球体内部的体积与表面积处的体积相比可以忽略不计。
2.高维空间中的欧氏距离
3.基于距离的机器学习模型
K近邻:样本间距离。
支持向量机:样本到决策面距离。
K-Means:样本到聚类中心距离。
层次聚类:不同簇之间的距离。
推荐系统:商品或用户相似度。
·息检索:查询和文档之前的相似度。
4.稀疏性与过度拟合
·过度拟合(overfitting)︰模型对已知数据拟合较好,新的数据拟合较差·高维空间中样本变得极度稀疏,容易会造成过度拟合问题。
5.决策树
随着维数的增加,计算复杂度指数增长 只能近似求解,得到局部最优解而非全局最优解
例子:决策树 选择切分点对空间进行划分 每个特征m个取值,候选划分数量m^d(维度灾难! )