zoukankan      html  css  js  c++  java
  • 特征选择算法学习2

    特征选择算法学习笔记2

    主要讲一下常见的评价函数

    评价函数就是给特征选择后选择的好坏做一个直观额解释。。和智能算法中的评价函数是一样的,总得量化展示的

    (一)思维导图


    个人感觉这个图交代的挺清楚地儿。。可以概括。。源地址https://www.cnblogs.com/babyfei/p/9674128.html

    (二)特征选择中常见的评价函数主要分为三种

    • 过滤式 filter
    • 包裹式 wrapper
    • 嵌入式 embeded
    ### 过滤式 filter 1.定义:对每一维的特征“打分”,即给每一维的特征赋予权重,这样的权重就代表着该维特征的重要性,然后依据权重排序。 简单的来说就是利用概率统计的方法进行评价。。 2.常见方法: 2.1 相关性( Correlation)       运用相关性来度量特征子集的好坏是基于这样一个假设:好的特征子集所包含的特征应该是与分类的相关度较高(相关度高),而特征之间相关度较低的(亢余度低)。可以使用线性相关系数(correlation coefficient) 来衡量向量之间线性相关度。其实就是person相关系数,在R里面的函数就是cor()..

    2.2 距离 (Distance Metrics )
    运用距离度量进行特征选择是基于这样的假设:好的特征子集应该使得属于同一类的样本距离尽可能小,属于不同类的样本之间的距离尽可能远。
    常用的距离度量(相似性度量)包括欧氏距离、标准化欧氏距离、马氏距离等。欧式距离($$operatorname{dist}(X, Y)=sqrt{sum_{i=1}^{n}left(x_{i}-y_{i} ight)^{2}}$$)偏多。。。

    2.3 Chi-squared test(卡方检验)
    consistency metrics通常用卡方检验,其思想是找出和预测目标不相关的特征,所以其过程是计算每个特征和预测目标的卡方统计量。

    2.4 一致性( Consistency )
    若样本1与样本2属于不同的分类,但在特征A、 B上的取值完全一样,那么特征子集{A,B}不应该选作最终的特征集。
    2.5 信息增益、信息熵
    信息熵:信息熵就是指不确定性,熵越大,不确定性越大
    $$H(X)=-sum_{i=1}^{n} P_{i} ullet log {2} P{i}$$
    信息增益是针对一个一个的特征而言的,就是看一个特征t,系统有它和没它的时候信息量各是多少,两者的差值就是这个特征给系统带来的信息量,即增益。系统含
    有特征t的时候信息量很好计算,就是刚才的式子,它表示的是包含所有特征时系统的信息量。
    信息熵有如下特性:若集合Y的元素分布越“纯”,则其信息熵越小;若Y分布越“紊乱”,则其信息熵越大。在极端的情况下:若Y只能取一个值,即P1=1,则H(Y)取最
    小值0;反之若各种取值出现的概率都相等,即都是1/m,则H(Y)取最大值log2m(https://blog.csdn.net/weixin_42296976/article/details/81126883

    包裹式wrapper

      这个目前我看的包裹式论文稍微多一点,主要是与原启发式算法相结合
      1.定义:将子集的选择看作是一个搜索寻优问题,生成不同的组合,对组合进行评价,再与其他的组合进行比较。这样就将子集的选择看作是一个是一个优化问题,这 
    

    里有很多的优化算法可以解决,尤其是一些启发式的优化算法,如GA,PSO,DE,ABC,GWO,WOA,FA,FPA,BOA,ALO,ACO。一般的是二进制改进算法居多一些。

      2.1分类错误率
         使用特定的分类器,用给定的特征子集对样本集进行分类,用分类的精度来衡量特征子集的好坏。
     公式:$$	ext {error}_{-} 	ext {rate}=frac{sum{1 | Y i 
    eq P Y i}}{sum{1 | Y i=Y i}}$$
    

    一些论文里面这个公式居多:$$ ext {Fitness}=alpha gamma_{R}(D)+eta frac{|R|}{|C|}$$

     3常见的分类器
      这个写个专门的吧,挺多的,不过论文中常用的KNN和SVM居多
      <a>https://www.cnblogs.com/gaowenxingxing/p/11829424.html</a>
    

    嵌入式 embeded

      1.定义:
        在模型既定的情况下学习出对提高模型准确性最好的属性。这句话并不是很好理解,其实是讲在确定模型的过程中,挑选出那些对模型的训练有重要意义的属 
        性。嵌入式特征选择是将特征选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成,即在学习器训练过程中自动地进行了特征选择。
      2.给个思维导图吧
       ![](https://img2018.cnblogs.com/blog/1365906/201911/1365906-20191110095305442-150755377.png)
       这里有几个分类器,我回头单独写出来,给出代码。
    

    Reference:
    1.《机器学习》周志华
    2.Binary ant lion approaches for feature selection
    3.Binary butterfly optimization approaches for feature selection
    4.Whale optimization approaches for wrapper feature selection
    5.https://www.cnblogs.com/stevenlk/p/6543628.html#移除低方差的特征-removing-features-with-low-variance
    6. M. Dash, H. Liu, Feature Selection for Classification. In:Intelligent Data Analysis 1 (1997) 131–156.
    7。Lei Yu,Huan Liu, Feature Selection for High-Dimensional Data:A Fast Correlation-Based Filter Solution
    8.Ricardo Gutierrez-Osuna, Introduction to Pattern Analysis ( LECTURE 11: Sequential Feature Selection )
    http://courses.cs.tamu.edu/rgutier/cpsc689_f08/l11.pdf

  • 相关阅读:
    [总结]并查集
    一些麻烦的语法知识
    P1496 找筷子
    P1314 [NOIP2011 提高组] 聪明的质监员
    HDU 1232 -畅通工程(并查集)
    POJ 1611 -The Suspects (并查集)
    方框(HPU暑期第四次积分赛)
    HDU 2191
    B
    HDU 1009
  • 原文地址:https://www.cnblogs.com/gaowenxingxing/p/11828885.html
Copyright © 2011-2022 走看看