zoukankan      html  css  js  c++  java
  • 特征选择

    将属性称之为特征,对当前学习任务有用的属性称为“相关特征”,没什么用的属性称为“无关特征”。从给定得到特征集合中选择出相关特征子集的过程,称为----特征选择。

    为什么进行特征选择呢?

    1. 在现实任务中经常会遇到维数灾难问题,就是因为属性过多造成的,若能从中选择出重要的特征,使得后续学习过程仅需在一部分特征上构建模型,则维数灾难问题就会大大减轻。

    2. 去除不相关特征往往会降低学习任务的难度,只留下关键因素,更容易看清。

    常见的特征选择方法大致可分为三类:过滤式、包裹式和嵌入式。

    1. 过滤式:先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关。这相当于先用特征选择过程初始特征进行“过滤”,在用过滤后的特征来训练模型。(ps:这是我们常见的方式)

      Relisf是一种著名的过滤式特征选择的方法,该方法设计了一个相关统计量来度量特征的重要性。该统计量是一个向量,其每个分量分别对应于一个初始特征,而特征子集的重要性则是由子集中每个特征所对应的相关统计量分量之和来决定。于是,只需指定一个阈值,然后比较比该阈值大的相关统计量分量所对应的特征即可;也可指定欲选取的特征个数,然后选择相关统计量分量最大的几个特征。

    2. 包裹式选择:与过滤式特征选择不考虑后续学习器不同,包裹式特征选择直接把最终将要使用的学习器的性能作为特征子集的评价准则。

      目的是为给定学习器选择有利于其性能、“量身定做”的特征子集。由于包裹式特征选择方法直接针对给定学习器进行优化,因此,从最终学习器性能来看,包裹式特征选择比过滤式选择更好,但另一方面,由于在特征选择过程中需多次训练学习器,因此包裹式特征选择的计算开销通常比过滤式特征选择大得多。

      LVW是一个典型的包裹式特征选择方法,它在拉斯维加斯方法框架下使用随机策略来进行子集搜索,并以最终分类器的误差为特征子集评价准则。

    3. 嵌入式选择:是将特征选择过程与学习器训练过程融为一体,两者在用一个优化过程种完成,即在学习器训练过程中自动地进行了特征选择。

      基于L1正则化的学习方法就是一种嵌入式特征选择方法,其特征选择过程与学习器训练过程融为一体,同时完成。

  • 相关阅读:
    ueditor单独调用图片上传
    百度Ueditor多图片上传控件
    linux基础之vim编辑器
    linux基础之进阶命令二
    linux基础之基础命令一
    Python基础之PyCharm快捷键大全
    IT菜鸟之VTP应用项目
    IT菜鸟之总结(Du teacher)
    IT菜鸟之DHCP
    IT菜鸟之路由器基础配置(静态、动态、默认路由)
  • 原文地址:https://www.cnblogs.com/CynthiaWendy/p/11040653.html
Copyright © 2011-2022 走看看