zoukankan      html  css  js  c++  java
  • 数据不平衡处理方法

    引自:https://www.jianshu.com/p/53bffd95d6f5

    • 使用正确的评价指标
      如ROC-AUC。
    • 重新采样训练集
      • 欠采样
        常常当数据量足够多时使用这个方法。通过在多数类样本中随机选择和少数类样本相同数量的样本。
        可多次放回地抽取不同的训练集,训练不同的分类器进行组合,会减少信息的损失。
      • 过采样
        常常当数据量不足时会使用这个方法。通过重复、bootstrap或SMOTE数据合成等方法生成新的数据。运气好的话能分对很多,否则会分错很多。可在每次生成新数据点的时候加入轻微的随机扰动。

    有时,结合使用欠采样和过采样也会有很好的效果。采样的优点是简单;缺点是过采样会反复出现一些样本,可能会出现一定程度的过拟合;欠采样会丢失数据,只学到了总体模式的一部分。

    • 修改算法
      比如修改模型中的代价函数部分,使得代价函数中分错少数类样本的惩罚权重大于分错多数类样本的惩罚权重
      或者使用其他的机器学习方法,神经网络算法通常对不平衡数据很无奈。
    作者:cherryleechen
    链接:https://www.jianshu.com/p/53bffd95d6f5
    来源:简书
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
  • 相关阅读:
    痛苦之旅——安装Eric4
    如何把自己写的python程序给别人用
    (转)史上最好的Python线程指南
    (转)python编码问题
    Beautiful Soup的一些中文资料
    oracle监听配置
    redhat6.5安装oracle 11g
    《深入浅出MFC》– Document-View深入探讨
    CAS解扰小结
    ts包、表、子表、section的关系
  • 原文地址:https://www.cnblogs.com/lyp1010/p/14848208.html
Copyright © 2011-2022 走看看