简而言之,当训练样本数量不变,分类器性能会随着选取的特征维度的增大先增大后减小,也就是说只有在特征维度数量和样本数量稳定在一定范围内,分类器性能才会最优,但目前没有什么固定的方法去计算二者之间的关系。
过拟合就是当训练样本数量不变,分类器性能随着特征维度增大而减小,直观的体现就是测试训练样本分数很高,一旦测试新数据分数就下降。
如何避免维度灾难?
那些对于非线性边界能拟合很好的分类器一般泛化性比较差,而且容易过拟合。所以当使用这些分类器时,特征的数量尽量保持小些(如神经网络、KNN、决策树等)。如果使用一些易泛化的分类器,那么特征数可以用多些(如朴素贝叶斯、线性分类器等)