zoukankan      html  css  js  c++  java
  • 《别让数据坑了你!用置信学习找出错误标注》作者:JayLou娄杰。置信学习/带噪学习

    原文链接:https://mp.weixin.qq.com/s/svo0_mJ0RwOUA7hgc0doCw
    论文链接:https://arxiv.org/abs/1911.00068
    带噪学习:https://github.com/subeeshvasu/Awesome-Learning-with-Label-Noise
    开源工具:https://github.com/cgnorthcutt/cleanlab

    错误标注很普遍,如下图所示,QuickDraw、MNIST和Amazon Reviews数据集中就存在错误标注。

    置信学习三个步骤:

    • Count:估计噪声标签和真实标签的联合分布;
    • Clean:找出并过滤掉错误样本;
    • Re-Training:过滤错误样本后,重新调整样本类别权重,重新训练;

    Count包括四步骤:

    • 交叉验证
      • 得到n个样本,m个类别的n*m的矩阵
      • 统计每个人工标定类别j的平均概率tj作为置信度阈值
      • 计算每个样本真实类别,最大概率pij且pij大于tj
    • 计算计数矩阵(类似混淆矩阵)
    • 标定计数矩阵,让计数矩阵的总和与数据总量相同
    • 估计噪声标签和真实标签的联合分布,也就是将计数矩阵归一化得到Q

    Clean有4种方法:

    • 过滤最大pij和人工标记不一致的数据;
    • 过滤计数矩阵中非对角单元的样本;
    • 对于类别c,选取n*p个样本过滤,其中p是联合分布矩阵中除Q(c,c)之外的概率和;
    • 对于计数矩阵非对角单元,选取n*p个样本过滤,p是联合分布矩阵中计数矩阵的单元对应的概率;

    Re-Training

    • 根据Q修正loss权重
    • 采取Co-Teaching框架

    本方法和置信学习中的SOTA方法Mentornet相比,噪声数据占比40%时,多组实验平均提升34%。

  • 相关阅读:
    安全
    请求
    使用 Fetch
    安全
    script
    PWA
    link(外部资源关系)
    base(根URL)
    缓存
    IndexedDB基本概念
  • 原文地址:https://www.cnblogs.com/CheeseZH/p/13238446.html
Copyright © 2011-2022 走看看