zoukankan      html  css  js  c++  java
  • 分类中数据不平衡问题的解决经验(转)

    笔试时遇到这个问题,这篇博文写的蛮好:https://www.52ml.net/16294.html

    总结起来四种方法:

    (1)过采样:过抽样方法通过增加少数类样本来提高少数类的分类性能 ,

    最简单的办法是简单复制少数类样本,缺点是可能导致过拟合,没有给少数类增加任何新的信息。

    改进的过抽样方法通过在少数类中加入随机高斯噪声或产生新的合成样本等方法。

    (2)欠采样:欠抽样方法通过减少多数类样本来提高少数类的分类性能,最简单的方法是

    通过随机地去掉一些多数类样本来减小多数类的规模,缺点是会丢失多数类的一些重要信息,

    不能够充分利用已有的信息。

    (3)算法层面,采用代价敏感方法:本质上就是给不同类样本不同的权重,包括重构训练集的方法、

    引入代价敏感因子,大样本赋予较小的代价。

    (4)特征选择:根据不平衡分类问题的特点,选取最具有区分能力的特征,有利于提高稀有类的识别率 。

    本质上就三种方式,过采样、欠采样、设权重。

          

  • 相关阅读:
    LeetCode
    算法
    GitHub
    GitHub
    git
    将博客搬家至CSDN
    base64与图片互转
    windows下mongodb数据库搭建过程遇到问题
    mongodb数据插入语句与navicat导入mongodb的json结构
    Visual C++安装失败解决:Error 0x80240017: Failed to execute MSU package.
  • 原文地址:https://www.cnblogs.com/573177885qq/p/5896767.html
Copyright © 2011-2022 走看看