一、用自己的话描述出其本身的含义:
1、特征选择
特征选择就是在一大堆数据中删除相关性系数比较低对结果没什么影响的特征,从而降维优化计算程度。
减少特征具有重要的现实意义,不仅减少过拟合、减少特征数量(降维)、提高模型泛化能力,而且还可以使模型获得更好的解释性,增强对特征和特征值之间的理解,加快模型的训练速度,一般的,还会获得更好的性能。
2、PCA
PCA本质是一种分析、简化数据集的技术。目的是数据维护压缩,尽可能降低原数据的维数(复杂度),但是会损失少量信息,还会改变数据结构。它可以消减回归分析或者聚类分析中特征的数量。
PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。PCA 能从冗余特征中提取主要成分,在不太损失模型质量的情况下,提升了模型训练速度。
二、并用自己的话阐述出两者的主要区别
特征选择降维后只是减少特征值,但PCA降维后会改变数据特征数量也会减少。PCA数据要达到上百以上,要考虑数据的简化;特征选择没有限制。特征选择是人为控制的,PCA是算法自动控制的。