zoukankan      html  css  js  c++  java
  • [Active Learning] Multi-Criteria-based Active Learning


    Active Learning (AL) 的 query criteria 大致可以分为 3 类:informativenessrepresentativenessdiversity

    下面我将分别介绍这三种 criteria,并介绍论文 [1] 中是如何结合三种 criteria 的。(这里并不对 NER 部分做介绍。)

    1 Informativeness

    这种 criterion 用的应该是最多的,其中包括最简单最常用的 uncertainty sampling。

    论文 [1] 也是将 sample 和 decision boundary 之间的距离来衡量该 sample 的 information。Closer to decision boundary, more informative.

    仅用 informativeness 的 strategy 有可能会选到 outlier,故而需要考虑 representativeness。


    Fig. 1 [2] Outlier sample A is more informative than sample B and will be selected by informativeness query strategy.

    2 Representativeness

    Representativeness 的衡量需要比较两个 samples 的 similarity,论文 [1] 中采取余弦相似度来衡量 similarity。

    一个 sample 的 representativeness 可以用它的 density 来量化,即等于该 sample 与其它所有 unlabeled set 中样本 similarity 的均值。即:

    [Density(oldsymbol x_i) = frac{sum_{j ot = i} Sim(oldsymbol x_i, oldsymbol x_j)}{N-1} ]

    其中,(N) 表示 unlabeled set 的大小。

    如果某一个 sample (oldsymbol x^*) 的 density 最大,那么 (oldsymbol x^*) 也就是 unlabeled set 的 centroid。

    当然,representativeness 的衡量不止论文 [1] 提到的这种方式,如论文 [3] 使用样本与部分邻居的 similarity 来表示 density,而不是整个 unlabeled set。

    3 Diversity

    Diversity 这个 criterion 是对 batch-mode active learning 才有的,当我们需要一次选择多个 samples 时,如果不考虑 diversity,很可能会重复选择同一区域的点,造成浪费。

    论文 [1] 提出了两种利用 diversity 的方法:GlobalLocal

    3.1 Global consideration

    这种方式将 unlabeled set 用 K-means 划分成 K 个区域,在每一轮选择中,一个 batch 内的点需要从 K 个不同的区域中分别选择。

    在实际利用时,可能不会对整个 unlabeled set 进行 K-means 划分,有可能只是对 unlabeled set 的一个子集进行划分,提高效率。

    3.2 Local consideration

    这种方式就不太考虑 unlabeled set,关注的重点在要选择的 batch 上。

    在每一轮的 query 中,我们如果想要将一个 selected sample (oldsymbol x_{new})加入到 current batch,需要该 selected sample 和已经在 current batch 中的样本有足够大的区别,即 (Similarity(oldsymbol x_{new}, oldsymbol x_{old}) > eta),其中 (eta) 可以取整个 unlabeled set 样本之间 similarity 的均值。

    在 local method 的情况下,一个个 selected samples 将经过筛选顺序加入到 batch 中。selected sample 是如何被 select 出的?可以 random,也可以用 informativeness 和 representativeness 的方式。

    4 Combinations of three criteria

    single-criterion 的 query strategy 在很多时候不如 multi-criteria 的 strategy。论文 [1][3] 中都有类似结论。

    以下将介绍论文 [1] 提出的关于如何结合 informativeness、representativeness 和 diversity 三种 criteria 的两种方式。

    4.1 Strategy 1

    流程:

    1. 使用 Informativeness 这一 single criterion 选出 top M 个 most informative 的 samples,将其组成一个集合 interSet;
    2. 对 interSet 集合进行 K-means 聚类,聚成 K 个 clusters,并选择出每个 cluster 的 centroid 作为 selected sample 加入到 batch 中。(batch 的 size 也为 K。)

    K-means 的 centroids 既代表了 interSet,又有 diversity。该 strategy 使用了 diversity 的 global method。

    4.2 Strategy 2

    流程:

    1. 按照 (lambda operatorname{Info}left(oldsymbol x_{i} ight)+(1-lambda) ext {Density}left(oldsymbol x_{i} ight)) 结合 informativeness 和 representativeness 这两个 criteria,然后按照得分的高低选择出 selected samples;
    2. 一个 selected sample 想要加入到 batch 中,必须要满足新加入的点与已经在 batch 中的点的 similarity 大于某个阈值 (eta),即使用 diversity 的 local method 对 selected samples 再进行一次 diversity 筛选。

    (lambda) 是一个超参数,需要人工设定,用来控制 informativeness 和 representativeness 的权重。论文 [3] 对 (lambda) 的取值做了更加详细的研究,可以动态设定 (lambda) 的值。

    4.3 Strategy 1 vs. Strategy 2

    在论文 [1] 的实验中,strategy 2 的效果要好于 strategy 1。

    References

    [1] Shen, D., Zhang, J., Su, J., Zhou, G., & Tan, C.-L. (2004). Multi-criteria-based active learning for named entity recognition. (ACL) https://doi.org/10.3115/1218955.1219030
    [2] Burr Settles. (2009). Active Learning Literature Survey. Computer Sciences Technical Report 1648, University of Wisconsin-Madison.
    [3] Ebert, S., Fritz, M., & Schiele, B. (2012). RALF: A reinforced active learning formulation for object class recognition. (CVPR) https://doi.org/10.1109/CVPR.2012.6248108

  • 相关阅读:
    关于互联网产品经理的认知
    互联网产品经理的工作职责
    软件需求分析方法
    Enumeration遍历http请求参数的一个例子
    jquery datatable使用简单示例
    改变输出的文字的字体格式
    excel 类获取起始列和使用列
    调试不能命中断点
    CString转换为const char*
    __declspec(dllexport)
  • 原文地址:https://www.cnblogs.com/wuliytTaotao/p/10748942.html
Copyright © 2011-2022 走看看