zoukankan      html  css  js  c++  java
  • 阅读笔记 Vox Populi: Collecting High-Quality Labels from a Crowd

    作者 Ofer Dekel H-27 有多篇关于 Crowdsourcing 中 labeler 和 Active leanring 的文章。

    这篇文章主要是考虑:训练一个分类器,从而删去一部分低质量的工人。论文中假设每个example 只接受一个样例,每个工人只标记较少数量的 example 。

    其实际的算法其实还是通过通过训练好的分类器来判定工人所给的标记是否正确,从而将那些高错误率的工人删去(该工人提供的数据全部弃用),起到 clean data 的作用。

    个人认为论文的贡献主要在于: 从理论上分析了通过 由分类器给出的伪标记作为 ground truth 来判定工人的精度,的确可以找出那些低质量的工人。不同于 Learn from crowd 文章,其最终目的不是为了得到一个高精度的分类器,而是删去低质量的工人,从大量的噪音数据中得到 cleaned data,但是否数据的分布发生了改变,还能否学到原始分布 D 上的分类器,论文没有考虑。

    论文中的理论分析假定了工人数量和样例数量趋于无穷,在这种情形下,那些被差的工人标记的 x 被丢弃,不会对分类器 f 的学习造成很大影响。

    该 paper 用到了 一个 smart twist( small modification): splitting the data in two and using each half to clean the other。这是将 example set $S$ 划分为 $S_1$ 和 $S_2$,用工人在 $S_1$ 上的表现来决定工人在 $S_2$ 上的label 是否保留。

  • 相关阅读:
    flask中程序和请求上下文
    flask的初始化
    git 强制覆盖本地代码
    python编写一个带参数的装饰器
    Android 11 unexpected LOCAL_MODULE_CLASS for prebuilts: FAKE
    systemctl自定义service执行shell脚本时报错:code=exited, status=203/EXEC
    shell应用记录
    ssm在maven项目中的需要的依赖
    swiper 5张卡片轮播图实现效果
    Codeforces 1534 题解
  • 原文地址:https://www.cnblogs.com/Gelthin2017/p/10405344.html
Copyright © 2011-2022 走看看