zoukankan      html  css  js  c++  java
  • 机器学习西瓜书笔记---3.6、类别不平衡问题

    机器学习西瓜书笔记---3.6、类别不平衡问题

    一、总结

    一句话总结:

    【类别不平衡(class-imbalance)】就是指【分类任务中不同类别的训练样例数目差别很大】的情况.
    我们经常会遇到类别不平衡,【例如在通过拆分法解决多分类】问题时,即使原始问题中不同类别的训练样例数目相当,在使用OⅴR、MvM策略后产生的二分类任务仍可能出现类别不平衡现象,因此有必要了解类别不平衡性处理的基本方法

    1、为什么有类别不平衡问题讨论?

    前面介绍的分类学习方法都有一个共同的基本假设,即不同类别的训练样例数目相当.如果不同类别的训练样例数目稍有差别,通常影响不大,【但若差别很大,则会对学习过程造成困扰】.
    【例如有998个反例,但正例只有2个】,那么学习方法只需返回一个永远将新样本预测为反例的学习器,就能达到99.8%的精度;然而这样的学习器往往没有价值,因为它不能预测出任何正例

    2、类别不平衡学习的一个基本策略—【“再缩放”(rescaling)】?

    $$frac { y ^ { prime } } { 1 - y ^ { prime } } = frac { y } { 1 - y } imes frac { m ^ { - } } { m ^ { + } }$$
    再缩放的思想虽简单,但实际操作却并不平凡,【主要因为“训练集是真实样本总体的无偏采样”这个假设往往并不成立】,也就是说,我们未必能有效地基于训练集观测几率来推断出真实几率.
    “再缩放”也是【“代价敏感学习”(cost-sensitive learning)】的基础.在代价敏感学习中将式$$frac { y ^ { prime } } { 1 - y ^ { prime } } = frac { y } { 1 - y } imes frac { m ^ { - } } { m ^ { + } }$$中的m-/m+用 cost+/cost-代替即可,其中【cost+是将正例误分为反例的代价,cost-是将反例误分为正例的代价】

    3、解决类别不平衡学习现在三类做法?

    【欠采样】:第一类是直接对训练集里的反类样例进行【“欠采样”(undersampling)】,即【去除】一些反例使得正、反例数目接近,然后再进行学习;
    【过采样】:第二类是对训练集里的正类样例进行【“过采样”(oversampling)】,即【增加】一些正例使得正、反例数目接近,然后再进行学习;
    【阙值移动】:第三类则是直接基于原始训练集进行学习,但在用训练好的分类器进行预测时,将式$$frac { y ^ { prime } } { 1 - y ^ { prime } } = frac { y } { 1 - y } imes frac { m ^ { - } } { m ^ { + } }$$嵌入到其决策过程中,称为【“阙值移动”(threshold-moving)】

    4、采样注意?

    过采样法【不能简单】地对初始正例样本进行【重复采样】,否则会招致【严重的过拟合】
    欠采样法【若随机丢弃反例】,可能丢失一些重要信息
    欠采样法的代表性算法【EasyEnsemble】 [Liu et al,2009]则是利用集成学习机制,将反例划分为【若干个集合供不同学习器使用】,这样对每个学习器来看都进行了【欠采样】,但在【全局来看却不会丢失重要信息】

    5、“多标记学习”(multi-label learning)?

    多分类学习中虽然有多个类别,但每个样本仅属于一个类别.如果希望为个样本同时预测出多个类别标记,例如【一幅图像可同时标注为“蓝天”、“白云”、“羊群”、“自然场景”】,这样的任务就不再是多分类学习,而是【“多标记学习”(multi-label learning)】

    二、内容在总结中

    博客对应课程的视频位置:

     
    我的旨在学过的东西不再忘记(主要使用艾宾浩斯遗忘曲线算法及其它智能学习复习算法)的偏公益性质的完全免费的编程视频学习网站: fanrenyi.com;有各种前端、后端、算法、大数据、人工智能等课程。
    博主25岁,前端后端算法大数据人工智能都有兴趣。
    大家有啥都可以加博主联系方式(qq404006308,微信fan404006308)互相交流。工作、生活、心境,可以互相启迪。
    聊技术,交朋友,修心境,qq404006308,微信fan404006308
    26岁,真心找女朋友,非诚勿扰,微信fan404006308,qq404006308
    人工智能群:939687837

    作者相关推荐

  • 相关阅读:
    可视化工具连接mysql报1862【mysql修改登录密码】
    Java面试常被问到的题目+解答
    MyBatis启动:MapperStatement创建
    JavaScript Array(数组)对象
    分布式与集群的区别是什么?
    【触发器】MySQL触发器使用详解
    c++冒泡排序的模板函数设计
    c/c++性能优化--- cache优化的一点杂谈
    BZOJ 3181([Coci2012]BROJ-最小质因子为p的第k小素数)
    POJ 1026 Cipher
  • 原文地址:https://www.cnblogs.com/Renyi-Fan/p/14056367.html
Copyright © 2011-2022 走看看