zoukankan      html  css  js  c++  java
  • 机器学习-特征选择

    特征选择

    从特征集合中选择出相关的特征子集的过程,称为特征选择。它是数据预处理的一个重要过程。

    为什么进行特征选择?

    答:由于特征过多造成维数灾难,去除不相关的特征,会降低学习任务的难度。

    过滤式选择

    过滤式特征选择是首先从特征中过滤重要特征,接着再训练学习器,特征选择过程与学习器训练过程无关。

    Relief:

    过滤式法特征选择。通过一个相关统计量来度量特征的重要性。该统计分量是一个向量,向量的每个分量代表一个特征,向量值越大,特征越重要。

    算法如下:

    给定训练集{{x1,y1},,,{xm,ym}},对于xi,先在同类样本中寻找最近邻样本,xi,nh 称为猜中近邻,在从异类样本中寻找最近邻样本xi,nm ,称为猜错近邻,

    Pj = sum I (-diff(xi,xink)2+diff(xi,xinm)2)  表示相关统计量在书信j上的值

    若属性是离散型,xa=xb,则diff(xa,xb)=0 否则diff(xa,xb)=1

    若属性是连续型, diff(xa,xb)=| xa-xb |

    最后基于每个样本求得的相关统计量取平均,变量值越大,属性分类能力越强。

    包裹式选择

    针对给定的学习器进行优化,将学习器的性能作为评价特征子集的的评价标准。

    LVW算法

    它是在拉斯维加斯方法框架下采用随机策略进行特征子集搜索。并以最终分类器的误差作为特征子集的评价标准。

    由于采用随机策略,每次特征子集评价计算开销很大,当特征子集误差更小时或误差相当,特征数少时,则保留特征子集。

    嵌入式选择

    将特征选择与学习器训练融为一体,一同优化,在学习器训练过程中自动进行特征选择。

                                                                                                                                                                                                                                          

  • 相关阅读:
    第一款上位机的笔记(MFC)——VS2010
    C++随笔(四)
    C++随笔(三)
    C++随笔(二)障眼法
    C++随笔
    matlab中的数据图像拟合
    在keil中调试汇编程序
    redis常见的面试题及答案
    spring定时任务的几种实现方式
    【SpringMVC】从Fastjson迁移到Jackson,以及对技术选型的反思
  • 原文地址:https://www.cnblogs.com/2016-zck/p/14458306.html
Copyright © 2011-2022 走看看