zoukankan      html  css  js  c++  java
  • 特征选择的一点个人笔记

    前一阵被师妹问维生素论文里的特征选择,Fisher score和Laplacian score两种方法一直也没讲。于是趁把第四篇论文刚投完,马上把这个总结一下。

    Fisher特征选择的主要思想是,认为鉴别性能强的特征的表现是类内部样本点的距离尽可能小,类之间的距离尽量大。

           假设数据中有n个样本属于C个类别(忽然觉得这个不是我师兄反复强调的多标签分类问题吗- -),每个类分别包含ni个样本,mik表示第i类样本的取值,单个特征的Fisher准则表示为:

           Jfisher(k)=SB/SW

    其中,k表示第k维,SBSW表示第k维特征在训练样本集上的类间方差和类内方差。(之前本博客笔误写错了,这里目前改过来了)

    这样我们就可以判断出类别区分度好的特征(区分度越好fisher值越大)。

    参考文献: 基于Fisher准则和特征聚类的特征选择 ,《计算机应用》 2007年11期

    ---------------------------------------------------------------------------------------------------

    下面是Laplacian得分的判别法总结。

    Laplacian score 算法是fisher score的推广,优先选择权重比较小的那些。

    第一步,用所有数据建图:

    如果xixj是一类,或者是K近邻,则xixj相连。

    第二步,计算Sij。相邻的点使用下面公式计算:

    Sij = exp(- ||xi - xj||2 / t),其中t为给定的宽度,一般为1

    第三步,使用谱图理论的对角矩阵D来估计(下图是推导过程)

    因为大家都知道,拉普拉斯矩阵的公式:L=D-S,则fr = fr - frTD1 / (1TD1) 1

    第四步,

    对于每个特征的拉普拉斯矩阵,有

    Lr=frTLfr/(frTDfr)

    参考博客来自:http://www.cnblogs.com/chend926/articles/2511666.html

    ---------------------------------------------------------------------------------------------------

    其他的特征选择方法,包裹器方法如启发式搜索,嵌入式方法如决策树。

  • 相关阅读:
    使用EF取数据库返回的数据
    关注博客分类
    Natas23 Writeup(php弱类型)
    Natas22 Writeup(header重定向、burp截取抓包)
    Natas21 Writeup(共用session、session注入)
    Natas20 Writeup(Session登录,注入参数)
    Natas19 Writeup(Session登录,常见编码,暴力破解)
    Natas18 Writeup(Session登录,暴力破解)
    Natas17 Writeup(sql盲注之时间盲注)
    Natas15 Writeup(sql盲注之布尔盲注)
  • 原文地址:https://www.cnblogs.com/ubiwind/p/9629436.html
Copyright © 2011-2022 走看看