分类问题中的类别不平衡总结 Learner

zoukankan html css js c++ java

分类问题中的类别不平衡总结 Learner
问题形式
　　该问题一般指的是训练集中正负样本数比例相差过大，

　　举个例子，在极端情况下，在总体为1000的样本，若中有999个样本标记为A类，有1个样本标记为B类。则很明显，A类与B类的样本数偏差极大。一般认为当类别比例超过4：1时，则认为类别不均衡。

　　其一般会造成以下的一些情况：
1. 类别少的误判惩罚过低，导致有所偏袒，当样本不确定时倾向于把样本分类为多数类。
2. 样本数量分布很不平衡时，特征的分布同样会不平衡。
3. 传统的评价指标变得不可靠，例如准确率。
常见解决方法
1. 进行重采样，过采样或欠采样
2. 人工合成新的数据。 1）基于经验，对属性值进行随机采样，生成新的样本。2）基于贝叶斯理论，对属性值进行随机采样，可能会缺少之前属性之间的线性相关性。3）基于系统的人工样本生成方法，SMOTE(Synthetic Minority Over-sampling Technique)，类似于KNN的数据生成算法。
3. 尝试多种分类算法，不同的数据形式，适合不同的算法，尝试多种分类算法和不同的评价指标进行比较。
4. 尝试对模型进行惩罚，即对模型参数进行调整，例如SVM或XGBoost等。
5. 尝试一个新的角度理解问题。1.当作异常点检测即是对那些罕见事件进行识别。2.化趋势检测类似于异常点检测，不同在于其通过检测不寻常的变化趋势来识别。
6. 尝试着将问题分解成多个子问题进行求解。
7. 尝试多模型融合。
8. 将大样本聚成K个类别，每个类别分别与小样本进行训练生成分类器，再将K个结果作为判断标准进行判断，例如多数表决，或作为特征再生成新的模型等等。
参考：

https://blog.csdn.net/heyongluoyao8/article/details/49408131
因上求缘，果上努力~~~~ 作者：Learner-，转载请注明原文链接：https://www.cnblogs.com/BlairGrowing/p/15565806.html
查看全文

相关阅读:
[转]批处理for命令使用指南
 批处理命令学习
 【树】Count Complete Tree Nodes
【树】Flatten Binary Tree to Linked List（先序遍历）
【树】Kth Smallest Element in a BST（递归）
巧用border特性实现聊天气泡效果
 【树】Lowest Common Ancestor of a Binary Tree（递归）
【树】Path Sum II（递归）
【树】Populating Next Right Pointers in Each Node
【树】Serialize and Deserialize Binary Tree

原文地址：https://www.cnblogs.com/BlairGrowing/p/15565806.html