zoukankan      html  css  js  c++  java
  • 机器学习-特征选择

    特征选择

    从特征集合中选择出相关的特征子集的过程,称为特征选择。它是数据预处理的一个重要过程。

    为什么进行特征选择?

    答:由于特征过多造成维数灾难,去除不相关的特征,会降低学习任务的难度。

    过滤式选择

    过滤式特征选择是首先从特征中过滤重要特征,接着再训练学习器,特征选择过程与学习器训练过程无关。

    Relief:

    过滤式法特征选择。通过一个相关统计量来度量特征的重要性。该统计分量是一个向量,向量的每个分量代表一个特征,向量值越大,特征越重要。

    算法如下:

    给定训练集{{x1,y1},,,{xm,ym}},对于xi,先在同类样本中寻找最近邻样本,xi,nh 称为猜中近邻,在从异类样本中寻找最近邻样本xi,nm ,称为猜错近邻,

    Pj = sum I (-diff(xi,xink)2+diff(xi,xinm)2)  表示相关统计量在书信j上的值

    若属性是离散型,xa=xb,则diff(xa,xb)=0 否则diff(xa,xb)=1

    若属性是连续型, diff(xa,xb)=| xa-xb |

    最后基于每个样本求得的相关统计量取平均,变量值越大,属性分类能力越强。

    包裹式选择

    针对给定的学习器进行优化,将学习器的性能作为评价特征子集的的评价标准。

    LVW算法

    它是在拉斯维加斯方法框架下采用随机策略进行特征子集搜索。并以最终分类器的误差作为特征子集的评价标准。

    由于采用随机策略,每次特征子集评价计算开销很大,当特征子集误差更小时或误差相当,特征数少时,则保留特征子集。

    嵌入式选择

    将特征选择与学习器训练融为一体,一同优化,在学习器训练过程中自动进行特征选择。

                                                                                                                                                                                                                                          

  • 相关阅读:
    算法训练 表达式计算
    基础练习 十六进制转十进制
    基础练习 十六进制转十进制
    基础练习 十六进制转十进制
    New ways to verify that Multipath TCP works through your network
    TCP的拥塞控制 (Tahoe Reno NewReno SACK)
    Multipath TCP Port for Android 4.1.2
    How to enable ping response in windows 7?
    NS3
    Multipath TCP Port for Android
  • 原文地址:https://www.cnblogs.com/2016-zck/p/14458306.html
Copyright © 2011-2022 走看看