维度灾难
基于距离的机器学习模型
过度拟合:模型对已知数据拟合较好,新的数据拟合较差。
高维空间中样本变得极度稀疏,容易会造成过度拟合问题。
随着维数的增加,计算复杂度指数增长。
只能近似求解,得到局部最优解而非全局最优解。
特征选择和降维
理解维度灾难问题
import numpy as np import math from scipy.special import gamma def V(d,r): return math.pi**(d/2)*(r**d)/gamma(d/2+1) import pandas as pd df = pd.DataFrame() df["d"] = np.arange(1,20) df["V"] = V(df["d"],1) import matplotlib.pyplot as plt plt.rcParams['font.sans-serif']=['SimHei'] plt.rcParams['axes.unicode_minus']=False fig,ax = plt.subplots(figsize=(12,6)) ds = np.arange(1,50) plt.plot(ds,V(ds,1),marker="o") plt.xlabel("维度$d$") plt.ylabel("单位球体积$V_d$") plt.show()