zoukankan      html  css  js  c++  java
  • 分类样本不均

    实际使用分类器的时候,经常遇到分类样本不均衡的问题。而只有分类样本较为均衡,才可以达到比较好的分类效果。

    1、如果各个类别的样本数量都非常多,则对于样本少的类,使用全部样本。

    而对于样本多的类,进行采样。采样可以随机采样,或者如果有某一类别里,有一部分数据非常接近,比如奈雪的茶、koi在茶饮里占了几百家,对于这部分采样的时候,要比总体采样比例低。

    也即尽可能的让样本丰富。

    2、如果样本少的类,样本过于少,则可以使用召回率或者F1,而非准确率进行评测。

    3、在文本分类的时候,我们可以通过复制多份少类样本,并且乱序,比如:“我知道了,谢谢”。 和“谢谢,我知道了”,

    或者去除停用词与不去除停用词,“我工作上有很多事情要处理” 和“我的工作上有很多的事情要处理”,他们意思是一样的。思想类似于在图像识别时,如果样本比较少,就使用平移、旋转等手段丰富样本。

  • 相关阅读:
    github提交用户权限被拒
    vue数据响应式的一些注意点
    总结一下做移动端项目遇到的坑
    react-router
    promise-async-await
    递归函数
    Linux基础
    所有的数据处理都是map-reduce
    Mac下配置JAVA_HOME
    MySQL高级
  • 原文地址:https://www.cnblogs.com/yjybupt/p/10683820.html
Copyright © 2011-2022 走看看