1. Introduction
-
PDTB是基于一个简单的想法,即,篇章关系是建立在一组可识别的单词或短语(篇章连接词)或仅仅是在两个句子的邻接中。
-
本手册首先总结了PDTB-3中的新功能以及它与PDTB-2中的不同之处。
-
需要注意的是,PDTB-3中的每个token都标有其 出处,表明它是PDTB-2 token的副本、PDTB-2 token的修改版本 还是 PDTB-3的新版本(参见第8.3节)
-
这种来源是为了让研究人员能够 比较 他们在pdtb-2上的早期结果 和 更新版本的语料库上的结果,以及tp在整个pdtb-3语料库的基础上产生新的结果。
2. What's New in the PDTB-3?
-
简单地说,PDTB-3比PDTB-2既大又好。在尺寸方面,PDTB-3包含了13K多个标记,用于标注话语关系,总共53631个标记。
-
在质量方面,某些成对注释决策已被标准化(例如,Contrast vs. Concession),并应用于所有 以前的 和 新的注释标记;
-
某些难以注释的senses已经被放弃,而倾向于更容易注释的sense;
-
已经添加了新的语义,作为已经注释的标记和新标记的更合适的标签(第4节);
-
并且在整个语料库中进行了一系列一致性检查,以 确保相似的标记 要么以相似的方式被注释,要么显示出不同(第7节)。
-
对具有不同标签的类似 token 进行了校正,以使注释在整个语料库中保持一致,并检查重叠 tokens 是否相互一致。
-
请注意,这与评估 Inter-annotator Agreement (IAA)不同,它只解决注释者对单个tokens的分歧。
-
关于附加注释方面,大多数是 intra-sentential (Intra-S) discourse relations。如果token完全位于 PDTB 中 top-level S-node 的投影范围内,则将其视为 Intra-S。否则,被视为 Inter-S。
-
新注释的 Intra-S 标记包括 连词动词短语中的连词(第5.4节)和连词从句 之间的关系,自由或有头附加语 与 其附属从句之间的关系(第5.1节),infinitival clauses 与其 matrix clauses 之间的关系(第5.2节),以及其他从属结构 与其 matrix clauses 之间的关系(第5.3节)。
-
新的注释还包括 显式标记的问题-回答对(question-response pairs),称为 Hypophora (Section 2.7.1)。
-
除了 被引用的speech 中的 四个标记 被解析为 句子内部片段(sentence-internal fragments)外,大多数都是Inter-S。
-
新注释的还有词汇-句法结构(lexico-syntactic constructions),它们是特定篇章关系的明确信号,它们被归类为AltLexC(第2.7.2节),以表明它们是AltLex结构的一种类型,但也允许它们独立于其他AltLex标记而被发现。
-
图1比较了 PDTB-2 和 PDTB-3 中注释的 关系类型的分布。
图1:
-
PDTB-2 和 PDTB-3中注释的标记在句子内和句子之间的分布。显式标记具有显式连接词。
-
AltLex 和 AltLexC 标记 缺少显式的连接词,但 包含其他短语 或 基于结构的证据来证明参数之间的关系。(推断关系)
-
在EntRel tokens中,Arg1中提到的实体 和 Arg2的内容之间存在关系。 (基于实体的连贯关系)
-
Hypophora tokens涉及 Arg1中提出的问题 和 Arg2中的答案。
-
隐含标记中包含的关系必须被推断出来,而NoRel则表示(段落中的相邻句子)它们之间没有关系。
2.1 New Senses
2.2 Multi-sense connectives whose sense depends on their PoS
2.3 Discontinuous Connectives
2.4 Paired Connectives
2.5 Explicit Connectives in Intra-Sentential Discourse Relations
2.6 Spans that can be analyzed as one connective or two
2.7 New Relation Types
2.7.1 Hypophora
2.7.2 AltLexC
3. What’s different in the PDTB-3?
4. PDTB-3 Senses
4.1 PDTB-2 和 PDTB-3 sense hierarchy(层次)之间的差异
-
PDTB-3关系层次结构 简化并扩展了 PDTB-2关系层次结构(表1)。
-
简化包括将 Level-3级关系 限制为方向性差异,并消除罕见和/或难以注释的senses(第4.1.1节)。
-
增加允许 注释一些 新的句内关系(第4.1.2节)。
4.1.1 简化关系层次结构
-
虽然层次结构保留了相同的四个 Level-1 关系,但 Level-3 关系现在只编码方向性,因此现在只出现不对称的 Level-2 关系。
-
在pdtb-2中,没有方向的Level-3关系(例如,Equivalence)要么被移到Level-2,要么由于它们的稀有性或它们对注释者造成的困难而被消除(e.g.,Level-3 relation under Constrast)。
-
关于方向性,在PDTB-2中,有些关系的论元在 句子间(inter-sententially) 以一种顺序出现,结果却以 句子内(intra-sententially)的 任何一种顺序出现。
-
这意味着他们需要两个Level3版本:
-
例如,在条件关系(Condition relations)中传递条件的 论元 可以是Arg2(PDTB-2中的情况)或 Arg1(如示例50所示)
-
而在替换关系(Substitution relations)中传递所选替代(现称为substitute)的 论元 可以是Arg2(PDTB-2中的情况)或 Arg1,如示例51所示。
-
关于 Exception,我们还没有注意到,在这样注释的一些标记中,Exception出现在Arg2中,而在其他标记中,Exception出现在了Arg1中。
-
现在,每个direction上,都支持不同的 Level-3 type
-
-
Arg1作为条件
- Call Jim Wright’s office in downtown Fort Worth, Texas, these days and the receptionist still answers the phone, ”Speaker Wright’s office.
-
Arg1作为substitute
- instead of featuring a major East Coast team against a West Coast team, it pitted the Los Angeles Dodgers against the losing Oakland A’s [wsj 0443]
-
Arg1作为Exception
- Twenty-five years ago the poet Richard Wilbur modernized this 17th-century comedy merely by avoiding ”the zounds sort of thing,” as he wrote in his introduction. Otherwise, the scene remained Celimene’s house in 1666.
-
Arg2作为Exception
- Hoston Co. officials declined to comment on Moodys action on the units financial per-
formance this year except to deny a published report that outside accountants had discovered evidence of significant accounting errors in the first three quarters results
- Hoston Co. officials declined to comment on Moodys action on the units financial per-
-
Level-2 pragmatic relations 已经从PDTB-2中删除,取而代之的关系的标签 表明 implicit belif(epistemic knowledge 认知知识)或 言语行为 是否与论元相关
(参见Table 1,显示了 已发现的belif 或 speech act version的证据 之间的关系) -
如,Ex.54 显示了一个隐式 Cause.Result relation,其中结果 Arg2 论元是 the (speaker’s/writer’s) belief that the deadline could be extended.
-
它的sense因此被标注为:Contingency.Cause + Belief.Result + Belief
-
(54) That deadline has been extended once and Implicit=so could be extended again. [wsj 2032]
-
-
类似,Ex. 55 显示了一个 Concession.Arg2-as-denier relation,其中 被 denied(or cancelled)的是 与 Arg2 相关的 speech act.
-
它的sense因此被标注为:Comparison.Concession + SpeechAct.Arg2-as-denier + SpeechAct.
-
(55) He spends his days sketching passers-by, or trying to. [wsj 0039]
-
-
List relation 已经 从PDTB-2层次结构中删除,因为实际上它与连词(Conjunction)没有区别。
-
两个非对称的PDTB-2关系的名称也被改变了,以显示出共同点:
-
Restatement 被重新命名为 Level-of-detail,其 Specification 和 Generalization subtypes 现在仅被视为directional variants—— 分别为 Arg2-as-detail 和 Arg1-as-detail;
-
以及 Concession的 sub-types,隐晦地被称为 Contra-expectation and Expectation(反期望和期望),已经被重新命名以反映directionality的不同—— Arg1-as-denier and Arg2-as-denier
-
4.1.2 Augmenting the relation hierarchy(扩充关系层次)
-
研究发现,在标注 Intra-S(句子内) 篇章关系时,还需要更多的senses。
-
其中包括 Expandsion 下的 asymmetric Manner relation,以及 在 Instantiation 下独立的 Arg1-as-instance relation。
-
在 Contingency,additional senses 发现被需要 the asymmetric Level-2 relations of Negative Condition and Purpose(both having Arg1 and Arg2 directions at Level-3) and a Level-3 relation of Negative Result under Cause (目前还没有找到消极原因的证据。)
-
Similarity新的对称Level-2关系被添加到 Comparison,因为它明显省略了 PDTB-2 作为对称关系 Contrast 的组成。
-
请注意,PDTB-2中的所有现有标记都被映射到修订后的关系层次结构中的senses,以及用于注释新标记的标记。虽然大多数映射只是1:1,但如果不是,则需要手动审查以确保一致性和一致性(参见第6.2节)。
4.2 Sense Classification
PDTB-3 sense labels 的定义 shown in Table 1
4.2.1 Temporal Relations
The tag temporal 被用来描述 论元 将与 temporally 相关的情形。
Temporal.Synchronous: 当论元所描述的事件之间存在一定程度的时间重叠时,使用此标记。包括所有形式的重叠。
Temporal.Asynchronous:当一个event被描述发生在其他event之前的时候使用。
The label Temporal.Asynchronous:当一个Arg1描述的event 发生在 Arg2描述的event 之前。(Arg1 << Arg2))
4.2.2 Contingency Relations
The tag Contingency: 当一个论元描述的情况为另一个论元的情况 explanation 或 justification 时使用