zoukankan      html  css  js  c++  java
  • 概念:弱监督学习

    文章给的定义是: 数据集的标签是不可靠的,如(x,y),y对于x的标记是不可靠的。这里的不可靠可以是标记不正确,多种标记,标记不充分,局部标记等。

    在实际应用中的学习问题往往以混合形式出现,如多标记多示例、半监督多标记、弱标记多标记等。针对监督信息不完整或不明确对象的学习问题统称为弱监督学习。

    弱监督学习可以看做是有多个标记的数据集合,次集合可以是空集,单个元素,或是多个元素,分别对应x没有标记,有一个标记,和有多个标记三种情况。在此统一声明为一个标记的集合。

    在实际的使用中多标记的使用是很常见的,在图像文本语音中是很容易找到多个标记的。

    举个图像中的例子:

    一般机器学习算法,每一个训练样本都需要类别标号(对于二分类:1/-1)。实际上那样的数据其实已经经过了抽象,实际的数据要获得这样的标号还是很难,图像就是个典型。还有就是数据标记的工作量太大,我们想偷懒了,所以多只是给了正负样本集。负样本集里面的样本都是负的,但是正样本里面的样本不一定都是正的,但是至少有一个样本是正的。比如检测人的问题,一张天空的照片就可以是一个负样本集;一张某某自拍照就是一个正样本集(你可以在N个区域取N个样本,但是只有部分是有人的正样本)。这样正样本的类别就很不明确,传统的方法就没法训练。

    那么问题来了:图像的不是有标注吗?有标注就应该有类别标号啊?这是因为图片是人标的,数据量特大,难免会有些标的不够好,这就是所谓的弱监督集(weakly supervised set)。所以如果算法能够自动找出最优的位置,那分类器不就更精确吗? 标注位置不是很准确,比如自行车的车轮的位置,是完全没有位置标注的,只知道在bounding box区域附近有一个车轮。

    弱监督学习多用在多标记的数据上,感兴趣的可以去看一下:

    《Weakly supervised discriminative location and classification: a joint learning process》

  • 相关阅读:
    面试题:1000!结果中有多少个0
    进程和线程的理解
    面试题:栈内存的多线程
    android中activity和service是否在同一个进程中
    面试题:栈排序
    面试题:递归反转一个栈
    面试题:栈的push和pop序列是否一致
    验证码发送到手机上 购买服务器进行发送短信;阿里云/ 腾讯云
    (十一)腾讯云短信使用
    (十)微信小程序---上传图片chooseImage 与 上传到服务器
  • 原文地址:https://www.cnblogs.com/ariel-dreamland/p/8176432.html
Copyright © 2011-2022 走看看