zoukankan      html  css  js  c++  java
  • 不均衡样本集的重采样

    样本不均衡时出现问题的原因

    • 本质原因:模型在训练时优化的目标函数和测试时使用的评价标准不一致
    • 这种不一致:
      • 训练数据的样本分布与测试时期望的样本分布不一致
      • 训练阶段不同类别的权重(重要性)与测试阶段不一致

    解决方法

    基于数据的方法

    对数据进行重采样,使样本变得均衡

    • 随机采样:
      • 过采样:从(S_{min})中有放回采样,可能造成过拟合
      • 欠采样:从(S_{maj})随机舍弃,可能损失有用信息
    • SMOTE算法
      • 对少数类样本集(S_{min})中的每个样本(x),从它在(S_{min})中的K近邻中随机选取一个样本(y),然后在(x,y)连线上随机选取一点作为新样本
      • 根据需要的过采样倍率重复上述过程若干次
      • 缺点:
        • 为每个少数类样本合成相同数量的新样本,增大类间重叠度
        • 生成一些不能提供有用信息的样本
      • 改进:
        • Borderline-SMOTE:只给处于分类边界上的少数类样本合成新样本
        • ADASYN算法:不同的少数类样本合成不同个数的新样本
        • 数据清理方法(如Tomek Links),降低合成样本的类间重叠
    • Informed Undersampling
      • Easy Ensemble算法
        • 从多数类(S_{maj})中随机抽取一个子集(E(|E|approx |S_{min}|))
        • 使用(E + E_{min})训练分类器;重复上述过程若干次,得到多个分类器
        • 最终结果由多个分类器结果融合
      • Balance Cascade算法:级联结构
        • 在每一级中从多数类(S_{maj})中随机抽取子集(E)
        • (E+S_{min})训练该级的分类器
        • (S_{maj})中能够被当前分类器正确判别的样本剔除掉
        • 继续下一级操作,重复若干次得到级联结构
        • 最终结果也是各级分类器结果的融合
      • NearMiss
        • 利用K近邻信息挑选具有代表性的样本
      • One-sided Selection
        • 采用数据清理技术
    • 其它采样技术
      • 基于聚类的采样方法
      • 数据扩充方法
      • Hard Negative Mining
  • 相关阅读:
    EasyUI项目驱动学习
    给你一个能生成1到5随机数的函数,用它写一个函数生成1到7的随机数。 (即,使用函数rand5()来实现函数rand7())
    python手记(42)
    Succession
    第一节,学习cocos2d-x的前期准备
    DOM与JavaScript、jQuery之间的关系
    HTML5 精灵8方向移动+背景滚动+音效播放+鼠标事件响应
    Oracle多行记录合并自定义函数
    MSP430F5438 I2C学习笔记——AT24C02
    OPENCV 常用函数
  • 原文地址:https://www.cnblogs.com/weilonghu/p/11922699.html
Copyright © 2011-2022 走看看