非平衡数据处理 - 走看看

zoukankan html css js c++ java

非平衡数据处理

在正负样本都非常之少的情况下，应该采用数据合成的方式；
在负样本足够多，正样本非常之少且比例及其悬殊的情况下，应该考虑一分类方法；
在正负样本都足够多且比例不是特别悬殊的情况下，应该考虑采样或者加权的方法。
采样和加权在数学上是等价的，但实际应用中效果却有差别。尤其是采样了诸如Random Forest等分类方法，训练过程会对训练集进行随机采样。在这种情况下，如果计算资源允许上采样往往要比加权好一些。

另外，虽然上采样和下采样都可以使数据集变得平衡，并且在数据足够多的情况下等价，但两者也是有区别的。实际应用中，我的经验是如果计算资源足够且小众类样本足够多的情况下使用上采样，否则使用下采样，因为上采样会增加训练集的大小进而增加训练时间，同时小的训练集非常容易产生过拟合。
对于下采样，如果计算资源相对较多且有良好的并行环境，应该选择Ensemble方法。
.

查看全文

相关阅读:
FillForm网页表单填写插件（用于火狐浏览器，自动填表，自动表单，填写表单）
Firefox下完整读写本地文件的方法
 failure notice
百度奖品兑换监视程序
 javascript数组及其操作(zz)
JMETER使用
 ubuntu安装mysql
windows live writer写csdn博客，very good~
用SSH在linux下安装JDK和Tomcat
java模拟HTTP请求（集合了网上搜来的各种）

原文地址：https://www.cnblogs.com/pigbreeder/p/8056490.html

Copyright © 2011-2022 走看看