zoukankan      html  css  js  c++  java
  • 特征选择的一点个人笔记

    前一阵被师妹问维生素论文里的特征选择,Fisher score和Laplacian score两种方法一直也没讲。于是趁把第四篇论文刚投完,马上把这个总结一下。

    Fisher特征选择的主要思想是,认为鉴别性能强的特征的表现是类内部样本点的距离尽可能小,类之间的距离尽量大。

           假设数据中有n个样本属于C个类别(忽然觉得这个不是我师兄反复强调的多标签分类问题吗- -),每个类分别包含ni个样本,mik表示第i类样本的取值,单个特征的Fisher准则表示为:

           Jfisher(k)=SB/SW

    其中,k表示第k维,SBSW表示第k维特征在训练样本集上的类间方差和类内方差。(之前本博客笔误写错了,这里目前改过来了)

    这样我们就可以判断出类别区分度好的特征(区分度越好fisher值越大)。

    参考文献: 基于Fisher准则和特征聚类的特征选择 ,《计算机应用》 2007年11期

    ---------------------------------------------------------------------------------------------------

    下面是Laplacian得分的判别法总结。

    Laplacian score 算法是fisher score的推广,优先选择权重比较小的那些。

    第一步,用所有数据建图:

    如果xixj是一类,或者是K近邻,则xixj相连。

    第二步,计算Sij。相邻的点使用下面公式计算:

    Sij = exp(- ||xi - xj||2 / t),其中t为给定的宽度,一般为1

    第三步,使用谱图理论的对角矩阵D来估计(下图是推导过程)

    因为大家都知道,拉普拉斯矩阵的公式:L=D-S,则fr = fr - frTD1 / (1TD1) 1

    第四步,

    对于每个特征的拉普拉斯矩阵,有

    Lr=frTLfr/(frTDfr)

    参考博客来自:http://www.cnblogs.com/chend926/articles/2511666.html

    ---------------------------------------------------------------------------------------------------

    其他的特征选择方法,包裹器方法如启发式搜索,嵌入式方法如决策树。

  • 相关阅读:
    Chrome开发者工具中Elements(元素)断点的用途
    最简单的SAP云平台开发教程
    Java实现 LeetCode 495 提莫攻击
    Java实现 LeetCode 494 目标和
    Java实现 LeetCode 494 目标和
    Java实现 LeetCode 494 目标和
    Java实现 LeetCode 493 翻转对
    Java实现 LeetCode 493 翻转对
    Java实现 LeetCode 493 翻转对
    Java实现 LeetCode 492 构造矩形
  • 原文地址:https://www.cnblogs.com/ubiwind/p/9629436.html
Copyright © 2011-2022 走看看