zoukankan      html  css  js  c++  java
  • The Penn Discourse Treebank 3.0 Annotation Manual

    1. Introduction

    • PDTB是基于一个简单的想法,即,篇章关系是建立在一组可识别的单词或短语(篇章连接词)或仅仅是在两个句子的邻接中。

    • 本手册首先总结了PDTB-3中的新功能以及它与PDTB-2中的不同之处。

    • 需要注意的是,PDTB-3中的每个token都标有其 出处,表明它是PDTB-2 token的副本、PDTB-2 token的修改版本 还是 PDTB-3的新版本(参见第8.3节)

    • 这种来源是为了让研究人员能够 比较 他们在pdtb-2上的早期结果 和 更新版本的语料库上的结果,以及tp在整个pdtb-3语料库的基础上产生新的结果。

    2. What's New in the PDTB-3?

    • 简单地说,PDTB-3比PDTB-2既大又好。在尺寸方面,PDTB-3包含了13K多个标记,用于标注话语关系,总共53631个标记。

    • 在质量方面,某些成对注释决策已被标准化(例如,Contrast vs. Concession),并应用于所有 以前的 和 新的注释标记;

    • 某些难以注释的senses已经被放弃,而倾向于更容易注释的sense;

    • 已经添加了新的语义,作为已经注释的标记和新标记的更合适的标签(第4节);

    • 并且在整个语料库中进行了一系列一致性检查,以 确保相似的标记 要么以相似的方式被注释,要么显示出不同(第7节)。

    • 对具有不同标签的类似 token 进行了校正,以使注释在整个语料库中保持一致,并检查重叠 tokens 是否相互一致。

    • 请注意,这与评估 Inter-annotator Agreement (IAA)不同,它只解决注释者对单个tokens的分歧。

    • 关于附加注释方面,大多数是 intra-sentential (Intra-S) discourse relations。如果token完全位于 PDTB 中 top-level S-node 的投影范围内,则将其视为 Intra-S。否则,被视为 Inter-S。

    • 新注释的 Intra-S 标记包括 连词动词短语中的连词(第5.4节)和连词从句 之间的关系,自由或有头附加语 与 其附属从句之间的关系(第5.1节),infinitival clauses 与其 matrix clauses 之间的关系(第5.2节),以及其他从属结构 与其 matrix clauses 之间的关系(第5.3节)。

    • 新的注释还包括 显式标记的问题-回答对(question-response pairs),称为 Hypophora (Section 2.7.1)

    • 除了 被引用的speech 中的 四个标记 被解析为 句子内部片段(sentence-internal fragments)外,大多数都是Inter-S。

    • 新注释的还有词汇-句法结构(lexico-syntactic constructions),它们是特定篇章关系的明确信号,它们被归类为AltLexC(第2.7.2节),以表明它们是AltLex结构的一种类型,但也允许它们独立于其他AltLex标记而被发现。

    • 图1比较了 PDTB-2 和 PDTB-3 中注释的 关系类型的分布。

    图1:

    1. PDTB-2 和 PDTB-3中注释的标记在句子内和句子之间的分布。显式标记具有显式连接词。

    2. AltLex 和 AltLexC 标记 缺少显式的连接词,但 包含其他短语 或 基于结构的证据来证明参数之间的关系。(推断关系)

    3. 在EntRel tokens中,Arg1中提到的实体 和 Arg2的内容之间存在关系。 (基于实体的连贯关系)

    4. Hypophora tokens涉及 Arg1中提出的问题 和 Arg2中的答案。

    5. 隐含标记中包含的关系必须被推断出来,而NoRel则表示(段落中的相邻句子)它们之间没有关系。

    2.1 New Senses

    2.2 Multi-sense connectives whose sense depends on their PoS

    2.3 Discontinuous Connectives

    2.4 Paired Connectives

    2.5 Explicit Connectives in Intra-Sentential Discourse Relations

    2.6 Spans that can be analyzed as one connective or two

    2.7 New Relation Types

    2.7.1 Hypophora

    2.7.2 AltLexC

    3. What’s different in the PDTB-3?

    4. PDTB-3 Senses

    4.1 PDTB-2 和 PDTB-3 sense hierarchy(层次)之间的差异

    • PDTB-3关系层次结构 简化并扩展了 PDTB-2关系层次结构(表1)。

    • 简化包括将 Level-3级关系 限制为方向性差异,并消除罕见和/或难以注释的senses(第4.1.1节)。

    • 增加允许 注释一些 新的句内关系(第4.1.2节)。

    4.1.1 简化关系层次结构

    • 虽然层次结构保留了相同的四个 Level-1 关系,但 Level-3 关系现在只编码方向性,因此现在只出现不对称的 Level-2 关系。

    • 在pdtb-2中,没有方向的Level-3关系(例如,Equivalence)要么被移到Level-2,要么由于它们的稀有性或它们对注释者造成的困难而被消除(e.g.,Level-3 relation under Constrast)。

    • 关于方向性,在PDTB-2中,有些关系的论元在 句子间(inter-sententially) 以一种顺序出现,结果却以 句子内(intra-sententially)的 任何一种顺序出现。

    • 这意味着他们需要两个Level3版本:

      • 例如,在条件关系(Condition relations)中传递条件的 论元 可以是Arg2(PDTB-2中的情况)或 Arg1(如示例50所示)

      • 而在替换关系(Substitution relations)中传递所选替代(现称为substitute)的 论元 可以是Arg2(PDTB-2中的情况)或 Arg1,如示例51所示。

      • 关于 Exception,我们还没有注意到,在这样注释的一些标记中,Exception出现在Arg2中,而在其他标记中,Exception出现在了Arg1中。

      • 现在,每个direction上,都支持不同的 Level-3 type

    • Arg1作为条件

      • Call Jim Wright’s office in downtown Fort Worth, Texas, these days and the receptionist still answers the phone, ”Speaker Wright’s office.
    • Arg1作为substitute

      • instead of featuring a major East Coast team against a West Coast team, it pitted the Los Angeles Dodgers against the losing Oakland A’s [wsj 0443]
    • Arg1作为Exception

      • Twenty-five years ago the poet Richard Wilbur modernized this 17th-century comedy merely by avoiding ”the zounds sort of thing,” as he wrote in his introduction. Otherwise, the scene remained Celimene’s house in 1666.
    • Arg2作为Exception

      • Hoston Co. officials declined to comment on Moodys action on the units financial per-
        formance this year except to deny a published report that outside accountants had discovered evidence of significant accounting errors in the first three quarters results

    • Level-2 pragmatic relations 已经从PDTB-2中删除,取而代之的关系的标签 表明 implicit belif(epistemic knowledge 认知知识)或 言语行为 是否与论元相关
      (参见Table 1,显示了 已发现的belif 或 speech act version的证据 之间的关系)

    • 如,Ex.54 显示了一个隐式 Cause.Result relation,其中结果 Arg2 论元是 the (speaker’s/writer’s) belief that the deadline could be extended.

      • 它的sense因此被标注为:Contingency.Cause + Belief.Result + Belief

      • (54) That deadline has been extended once and Implicit=so could be extended again. [wsj 2032]

    • 类似,Ex. 55 显示了一个 Concession.Arg2-as-denier relation,其中 被 denied(or cancelled)的是 与 Arg2 相关的 speech act.

      • 它的sense因此被标注为:Comparison.Concession + SpeechAct.Arg2-as-denier + SpeechAct.

      • (55) He spends his days sketching passers-by, or trying to. [wsj 0039]

    • List relation 已经 从PDTB-2层次结构中删除,因为实际上它与连词(Conjunction)没有区别。

    • 两个非对称的PDTB-2关系的名称也被改变了,以显示出共同点:

      • Restatement 被重新命名为 Level-of-detail,其 Specification 和 Generalization subtypes 现在仅被视为directional variants—— 分别为 Arg2-as-detail 和 Arg1-as-detail;

      • 以及 Concession的 sub-types,隐晦地被称为 Contra-expectation and Expectation(反期望和期望),已经被重新命名以反映directionality的不同—— Arg1-as-denier and Arg2-as-denier

    4.1.2 Augmenting the relation hierarchy(扩充关系层次)

    • 研究发现,在标注 Intra-S(句子内) 篇章关系时,还需要更多的senses。

    • 其中包括 Expandsion 下的 asymmetric Manner relation,以及 在 Instantiation 下独立的 Arg1-as-instance relation。

    • 在 Contingency,additional senses 发现被需要 the asymmetric Level-2 relations of Negative Condition and Purpose(both having Arg1 and Arg2 directions at Level-3) and a Level-3 relation of Negative Result under Cause (目前还没有找到消极原因的证据。)

    • Similarity新的对称Level-2关系被添加到 Comparison,因为它明显省略了 PDTB-2 作为对称关系 Contrast 的组成。

    • 请注意,PDTB-2中的所有现有标记都被映射到修订后的关系层次结构中的senses,以及用于注释新标记的标记。虽然大多数映射只是1:1,但如果不是,则需要手动审查以确保一致性和一致性(参见第6.2节)。

    4.2 Sense Classification

    PDTB-3 sense labels 的定义 shown in Table 1

    4.2.1 Temporal Relations

    The tag temporal 被用来描述 论元 将与 temporally 相关的情形。

    Temporal.Synchronous: 当论元所描述的事件之间存在一定程度的时间重叠时,使用此标记。包括所有形式的重叠。


    Temporal.Asynchronous:当一个event被描述发生在其他event之前的时候使用。

    The label Temporal.Asynchronous:当一个Arg1描述的event 发生在 Arg2描述的event 之前。(Arg1 << Arg2))

    4.2.2 Contingency Relations

    The tag Contingency: 当一个论元描述的情况为另一个论元的情况 explanation 或 justification 时使用

  • 相关阅读:
    F. 蚂蚁装修
    D. 蚂蚁平面
    B. 蚂蚁觅食(二)
    A 蚂蚁觅食
    落谷 P1734 最大约数和
    F
    D
    Http头 Range、Content-Range(http断点续传原理)
    Http头 Range、Content-Range
    XCODE 4.5 IOS多语言设置 及NSLocalizedString和NSLocalizedStringFromTable的用法。
  • 原文地址:https://www.cnblogs.com/douzujun/p/13702652.html
Copyright © 2011-2022 走看看