样本类别比例严重失衡 - 走看看

zoukankan html css js c++ java

样本类别比例严重失衡

在机器学习中我们经常会遇到一个比较让人头疼的问题，就是样本类别比例失衡,在我第一次参加的Kaggle的比赛中，是一个而分类问题，给定的训练集样本中正负样本的比例大致达到惊人的1：1600。

通过网上搜集资料，其实针对这样的情况解决办法可以分为三种：

第一种:

　　　将正向样本进行重复混入训练样本中

　　　因为训练的指引来自损失函数，损失函数的影响因素分别来自 1错分为0 和0错分为1 ，当通过重复正向样本增加比例后，相当于增加了在训练时对1错判为0的权重，也就增加了损失函数的修正性。

第二种:

　　　增加损失函数中正样错判的权重：

　　　原理与第一种做法原理类似

第三种：

　　　bagging模式：

　　　具体做法为，例如正负样本比例为1：10 ，将负样本分为9份，每一份负样本与正样本合并为一个正负比例为1：1的训练样本，对9个训练样本集进行分别的训练，得到9个模型，然后用9个模型进行分别的预测并将各自的结果综合决策出最终的训练结果。

　　　

　　　

查看全文

相关阅读:
bzoj 4660
bzoj 4668
二项式反演学习笔记
 bzoj 3622
bzoj 5306
bzoj 3625
任意模数NTT（二）
bzoj 4913
bzoj 3456
多项式问题之五——多项式exp

原文地址：https://www.cnblogs.com/crawer-1/p/8878237.html

最新文章
bzoj 1861
bzoj 4712
CF725G
CF860E
CF809D
bzoj 5466
动态dp
bzoj 4408
bzoj 4704/CF 226E
bzoj 2658

Copyright © 2011-2022 走看看