数据不平衡处理方法 - 走看看

zoukankan html css js c++ java

数据不平衡处理方法
引自：https://www.jianshu.com/p/53bffd95d6f5
使用正确的评价指标
如ROC-AUC。

重新采样训练集

欠采样
常常当数据量足够多时使用这个方法。通过在多数类样本中随机选择和少数类样本相同数量的样本。
可多次放回地抽取不同的训练集，训练不同的分类器进行组合，会减少信息的损失。

过采样
常常当数据量不足时会使用这个方法。通过重复、bootstrap或SMOTE数据合成等方法生成新的数据。运气好的话能分对很多，否则会分错很多。可在每次生成新数据点的时候加入轻微的随机扰动。

有时，结合使用欠采样和过采样也会有很好的效果。采样的优点是简单；缺点是过采样会反复出现一些样本，可能会出现一定程度的过拟合；欠采样会丢失数据，只学到了总体模式的一部分。

修改算法
比如修改模型中的代价函数部分，使得代价函数中分错少数类样本的惩罚权重大于分错多数类样本的惩罚权重。
或者使用其他的机器学习方法，神经网络算法通常对不平衡数据很无奈。

作者：cherryleechen
链接：https://www.jianshu.com/p/53bffd95d6f5
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。
查看全文

相关阅读:
Oracle
CCF 201609-5 祭坛
 prometheus同时执行多个查询
 压力测试 Apache ab
kubernetes reference
python 深拷贝
 [ argo workflow ]
django orm 改动数据库中已存在的表（添加、删除、修改表字段）migrations
内存压力测试命令
 django 未成功初始化自定义表单

原文地址：https://www.cnblogs.com/lyp1010/p/14848208.html

Copyright © 2011-2022 走看看