zoukankan      html  css  js  c++  java
  • 样本类别比例严重失衡

    在机器学习中我们经常会遇到一个比较让人头疼的问题,就是样本类别比例失衡,在我第一次参加的Kaggle的比赛中,是一个而分类问题,给定的训练集样本中正负样本的比例大致达到惊人的1:1600。

    通过网上搜集资料,其实针对这样的情况解决办法可以分为三种:

    第一种:

       将正向样本进行重复混入训练样本中

       因为训练的指引来自损失函数,损失函数的影响因素分别来自 1错分为0  和0错分为1 ,当通过重复正向样本增加比例后,相当于增加了在训练时对1错判为0的权重,也就增加了损失函数的修正性。

    第二种:

       增加损失函数中正样错判的权重:

       原理与第一种做法原理类似

    第三种:

       bagging模式:

       具体做法为,例如正负样本比例为1:10 ,将负样本分为9份,每一份负样本与正样本合并为一个正负比例为1:1的训练样本,对9个训练样本集进行分别的训练,得到9个模型,然后用9个模型进行分别的预测并将各自的结果综合决策出最终的训练结果。

       

       

  • 相关阅读:
    AngularJs练习Demo3
    AngularJs练习Demo2
    AngularJs练习Demo1
    上传图片预览,支持IE6
    上传图片预览插件(转)
    微信公众平台SDK
    C# 4.0 并行计算部分
    在没有安装有mvc3的主机上部署asp.net mvc3网站,需要包含的DLL文件
    全排列
    不重复排列
  • 原文地址:https://www.cnblogs.com/crawer-1/p/8878237.html
Copyright © 2011-2022 走看看