实际使用分类器的时候,经常遇到分类样本不均衡的问题。而只有分类样本较为均衡,才可以达到比较好的分类效果。
1、如果各个类别的样本数量都非常多,则对于样本少的类,使用全部样本。
而对于样本多的类,进行采样。采样可以随机采样,或者如果有某一类别里,有一部分数据非常接近,比如奈雪的茶、koi在茶饮里占了几百家,对于这部分采样的时候,要比总体采样比例低。
也即尽可能的让样本丰富。
2、如果样本少的类,样本过于少,则可以使用召回率或者F1,而非准确率进行评测。
3、在文本分类的时候,我们可以通过复制多份少类样本,并且乱序,比如:“我知道了,谢谢”。 和“谢谢,我知道了”,
或者去除停用词与不去除停用词,“我工作上有很多事情要处理” 和“我的工作上有很多的事情要处理”,他们意思是一样的。思想类似于在图像识别时,如果样本比较少,就使用平移、旋转等手段丰富样本。