zoukankan      html  css  js  c++  java
  • 特征选择方法

    特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。

    特征选择主要有两个功能:

    1. 减少特征数量、降维,使模型泛化能力更强,减少过拟合
    2. 增强对特征和特征值之间的理解

    在数据挖掘工作中,通常处理的是一个包含大量特征且含义未知的数据集,并基于该数据集挖掘到有用的特征。那么这里面一般是四个步骤:特征工程、特征选择、模型构造、模型融合。

    特征工程主要是清洗特征、删除无用特征和构造新特征,经过特征工程这个过程我们可能会得到大量的特征;

    而特征选择的目的就是从这大量的特征中挑选出优秀的特征,因为好的特征更能够提升模型性能,同时也通过降维达到了避免维度灾难的目的。

    两大类特征选择方法:

    • 单变量特征选择方法,这里面主要包括皮尔森相关系数、最大信息系数、距离相关系数等,主要思想是衡量特征和标签变量之间的相关性;
    • 基于模型的特征选择方法,这主要是指模型在训练过程中对特征的排序,如基于随机森林的特征选择、基于逻辑回归的特征选择等

    本文将结合Scikit-learn提供的例子介绍几种常用的特征选择方法,它们各自的优缺点和问题。

    参考链接:

    https://www.cnblogs.com/hhh5460/p/5186226.html

  • 相关阅读:
    22 块级元素和行内元素
    21 文档流
    20101018T3 付账
    20181018T1 括号
    poj3417暗的连锁
    点的距离(LCA)
    浅谈RMQ实现LCA
    小R的调度
    bzoj1798维护序列
    bzoj3211花神游历各国
  • 原文地址:https://www.cnblogs.com/Allen-rg/p/9964912.html
Copyright © 2011-2022 走看看