特征选择方法

zoukankan html css js c++ java

特征选择方法
特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能，更能帮助我们理解数据的特点、底层结构，这对进一步改善模型、算法都有着重要作用。

特征选择主要有两个功能：
1. 减少特征数量、降维，使模型泛化能力更强，减少过拟合
2. 增强对特征和特征值之间的理解
在数据挖掘工作中，通常处理的是一个包含大量特征且含义未知的数据集，并基于该数据集挖掘到有用的特征。那么这里面一般是四个步骤：特征工程、特征选择、模型构造、模型融合。

特征工程主要是清洗特征、删除无用特征和构造新特征，经过特征工程这个过程我们可能会得到大量的特征；

而特征选择的目的就是从这大量的特征中挑选出优秀的特征，因为好的特征更能够提升模型性能，同时也通过降维达到了避免维度灾难的目的。

两大类特征选择方法：
- 单变量特征选择方法，这里面主要包括皮尔森相关系数、最大信息系数、距离相关系数等，主要思想是衡量特征和标签变量之间的相关性；
- 基于模型的特征选择方法，这主要是指模型在训练过程中对特征的排序，如基于随机森林的特征选择、基于逻辑回归的特征选择等
本文将结合Scikit-learn提供的例子介绍几种常用的特征选择方法，它们各自的优缺点和问题。

参考链接：

https://www.cnblogs.com/hhh5460/p/5186226.html
查看全文

相关阅读:
Java基础其他
 java网络编程
 java多线程编程
 正则表达式--位置匹配和组
 设计模式
 深入 Java Web
mysql 好用的sql语句
 spring boot 发送邮件
 dubbo的spi机制
 原理分析dubbo分布式应用中使用zipkin做链路追踪

原文地址：https://www.cnblogs.com/Allen-rg/p/9964912.html

特征选择方法

两大类特征选择方法：