zoukankan      html  css  js  c++  java
  • 机器学习-样本不均衡问题处理

    在机器学习中,我们获取的数据往往存在一个问题,就是样本不均匀。比如你有一个样本集合,正例有9900个,负例100个,训练的结果往往是很差的,因为这个模型总趋近于是正例的。

    就算全是正那么,也有99%的准确率,看起来挺不错的,但是我们要预测的负样本很可能一个都预测不出来。

    这种情况,在机器学习中有三个处理办法,过采样、欠采样、再平衡(再缩放)

    过采样:增加一些数据数据,使得正反例数量一致,比如这里,我们增加负例9800个,若单纯复制这100个负例,则很可能会导致多重共线性问题,所以实际的处理方法一般根据原始数据进行一些处理。

    比如常用的SMOTE算法,通过差值的方法增加样本数量。

    欠采样:减少一些样本使得正反例数量一致,比如这里减少9800个正例,但这样一来就损失了很多数据资源,实际常用的做法是将多的样本分成很多份,用N个训练器来训练,最后去平均。

    比如这里,我们可以将正例分成99份100个的集合,99份分别和100个负例组合成训练集来进行训练。当然如果正负例的数量差距太大的话可能会有很多个训练器了。

    再平衡:一般的分类算法训练出来是一个0-1的值,一般大于等于0.5的就是正,小于0.5的为负例。再平衡的思想就是根据正负样本数量的比例对训练结果判定的调整。

    通用的算法是:>=正例数量/总数量,则为正;<正例数量/总数量为负

    在这里我们的判定改为9900/(9900+100)=0.99

    所以预测结果当大于等于0.99时候我们判定为是正例。

  • 相关阅读:
    kafka 的基本概念及使用场景
    使用RedisTemplate执行Redis脚本
    SpringBoot使用Lua脚本操作Redis
    Java不定参数Object… obj 和 Object[] 的区别
    IntelliJ IDEA添加快捷键自动输入@author信息
    使用Guava RateLimiter限流以及源码解析
    go fileserver
    记录了prometheus 告警指标
    https://mp.weixin.qq.com/s/ZBsZHQtAz_vKS8fwvHKB3g图文分析Kubernetes认证、授权和准入控制
    es不停机滚动update
  • 原文地址:https://www.cnblogs.com/yifengjianbai/p/10445924.html
Copyright © 2011-2022 走看看