zoukankan      html  css  js  c++  java
  • 分类问题中的类别不平衡总结 Learner

    问题形式
      该问题一般指的是训练集中正负样本数比例相差过大,

      举个例子,在极端情况下,在总体为1000的样本,若中有999个样本标记为A类,有1个样本标记为B类。则很明显,A类与B类的样本数偏差极大。一般认为当类别比例超过4:1时,则认为类别不均衡。

      其一般会造成以下的一些情况:

    1. 类别少的误判惩罚过低,导致有所偏袒,当样本不确定时倾向于把样本分类为多数类。
    2. 样本数量分布很不平衡时,特征的分布同样会不平衡。
    3. 传统的评价指标变得不可靠,例如准确率。

    常见解决方法

    1. 进行重采样,过采样 或 欠采样
    2. 人工合成新的数据。 1)基于经验,对属性值进行随机采样,生成新的样本。2)基于贝叶斯理论,对属性值进行随机采样,可能会缺少之前属性之间的线性相关性。3)基于系统的人工样本生成方法,SMOTE(Synthetic Minority Over-sampling Technique),类似于KNN的数据生成算法。
    3. 尝试多种分类算法,不同的数据形式,适合不同的算法,尝试多种分类算法和不同的评价指标进行比较。
    4. 尝试对模型进行惩罚,即对模型参数进行调整,例如SVM或XGBoost等。
    5. 尝试一个新的角度理解问题。1.当作异常点检测即是对那些罕见事件进行识别。2.化趋势检测类似于异常点检测,不同在于其通过检测不寻常的变化趋势来识别。
    6. 尝试着将问题分解成多个子问题进行求解。
    7. 尝试多模型融合。
    8. 将大样本聚成K个类别,每个类别分别与小样本进行训练生成分类器,再将K个结果作为判断标准进行判断,例如多数表决,或作为特征再生成新的模型等等。

    参考:

    https://blog.csdn.net/heyongluoyao8/article/details/49408131

  • 相关阅读:
    12
    Kafka设计解析(二)- Kafka High Availability (上)
    Apache kafka 工作原理介绍
    Kafka设计解析(一)- Kafka背景及架构介绍
    【转载】MySQL之权限管理
    【转载】漫谈HADOOP HDFS BALANCER
    【转载】HDFS 上传文件不均衡和Balancer太慢的问题
    【转载】mysql binlog日志自动清理及手动删除
    【转】Typora极简教程
    更新Linux服务器时间
  • 原文地址:https://www.cnblogs.com/BlairGrowing/p/15565806.html
Copyright © 2011-2022 走看看