zoukankan      html  css  js  c++  java
  • 阅读笔记 Vox Populi: Collecting High-Quality Labels from a Crowd

    作者 Ofer Dekel H-27 有多篇关于 Crowdsourcing 中 labeler 和 Active leanring 的文章。

    这篇文章主要是考虑:训练一个分类器,从而删去一部分低质量的工人。论文中假设每个example 只接受一个样例,每个工人只标记较少数量的 example 。

    其实际的算法其实还是通过通过训练好的分类器来判定工人所给的标记是否正确,从而将那些高错误率的工人删去(该工人提供的数据全部弃用),起到 clean data 的作用。

    个人认为论文的贡献主要在于: 从理论上分析了通过 由分类器给出的伪标记作为 ground truth 来判定工人的精度,的确可以找出那些低质量的工人。不同于 Learn from crowd 文章,其最终目的不是为了得到一个高精度的分类器,而是删去低质量的工人,从大量的噪音数据中得到 cleaned data,但是否数据的分布发生了改变,还能否学到原始分布 D 上的分类器,论文没有考虑。

    论文中的理论分析假定了工人数量和样例数量趋于无穷,在这种情形下,那些被差的工人标记的 x 被丢弃,不会对分类器 f 的学习造成很大影响。

    该 paper 用到了 一个 smart twist( small modification): splitting the data in two and using each half to clean the other。这是将 example set $S$ 划分为 $S_1$ 和 $S_2$,用工人在 $S_1$ 上的表现来决定工人在 $S_2$ 上的label 是否保留。

  • 相关阅读:
    SQL Server -使用表触发器记录表插入,更新,删除行数
    利用DataSet部分功能实现网站登录
    SQL Server排序的时候使null值排在最后
    大数据操作:删除和去重
    C#匿名类型序列化、反序列化
    Js调用asp.net后台代码
    C# Excel
    ajax的介绍
    MySQL数据库的知识总结
    ASP.NET MVC 入门系列教程
  • 原文地址:https://www.cnblogs.com/Gelthin2017/p/10405344.html
Copyright © 2011-2022 走看看