概念：弱监督学习

zoukankan html css js c++ java

概念：弱监督学习

文章给的定义是：数据集的标签是不可靠的，如（x，y），y对于x的标记是不可靠的。这里的不可靠可以是标记不正确，多种标记，标记不充分，局部标记等。

在实际应用中的学习问题往往以混合形式出现,如多标记多示例、半监督多标记、弱标记多标记等。针对监督信息不完整或不明确对象的学习问题统称为弱监督学习。

弱监督学习可以看做是有多个标记的数据集合，次集合可以是空集，单个元素，或是多个元素，分别对应x没有标记，有一个标记，和有多个标记三种情况。在此统一声明为一个标记的集合。

在实际的使用中多标记的使用是很常见的，在图像文本语音中是很容易找到多个标记的。

举个图像中的例子：

一般机器学习算法，每一个训练样本都需要类别标号（对于二分类：1/-1）。实际上那样的数据其实已经经过了抽象，实际的数据要获得这样的标号还是很难，图像就是个典型。还有就是数据标记的工作量太大，我们想偷懒了，所以多只是给了正负样本集。负样本集里面的样本都是负的，但是正样本里面的样本不一定都是正的，但是至少有一个样本是正的。比如检测人的问题，一张天空的照片就可以是一个负样本集；一张某某自拍照就是一个正样本集（你可以在N个区域取N个样本，但是只有部分是有人的正样本）。这样正样本的类别就很不明确，传统的方法就没法训练。

那么问题来了：图像的不是有标注吗？有标注就应该有类别标号啊？这是因为图片是人标的，数据量特大，难免会有些标的不够好,这就是所谓的弱监督集（weakly supervised set）。所以如果算法能够自动找出最优的位置，那分类器不就更精确吗？标注位置不是很准确，比如自行车的车轮的位置，是完全没有位置标注的，只知道在bounding box区域附近有一个车轮。

弱监督学习多用在多标记的数据上，感兴趣的可以去看一下：

《Weakly supervised discriminative location and classification: a joint learning process》

查看全文

相关阅读:
angular 按下回车键触发事件
 vue 父组件与子组件的通信
 最近在开发一个文章聚合的工具
 Martinjingyu的开发环境
 个推push数据统计（爬虫）
基于redis的订单号生成方案
 电商平台--Mysql主从搭建(2)
Mysql主从搭建(1)
mysql物理级别热备脚本
 外键查询及删除

原文地址：https://www.cnblogs.com/ariel-dreamland/p/8176432.html