0. 摘要
1. 引言
(1)有利于篇章文本结构化
(2)具有广泛的应用价值
-
篇章的因果关系:用于自动问答和事件关系抽取;
-
对比关系:用于研究情感分析;
-
扩展关系:用于自动文摘和篇章关键词抽取。
-
另外,在机器翻译中也得到广泛应用。
2. 语料资源
RSTDT、PDTB、HIT-CDTB
RSTDT、PDTB和HIT-CDTB之间的差异
其次介绍三种语料的 标注过程、基本组成 及 相应的实例分析。
2.1 三种语言学资源的区别
2.2 RST篇章树库(RSTDT)概述
-
修辞结构:是指篇章内各片段间,依靠 语义修辞关系 进行相互连接,构成整体篇章关系层次结构。
-
基本篇章单元(EDU):对篇章文本进行切分,目的是 形成若干句型独立且能表达一定语义的片段
针对 RSTDT 中定义的 修辞结构关系,列举实例如图1所示。根据上述标注方法:
-
首先根据文本语义将原句切分为三个EDU;
-
然后识别相邻EDU间的修辞关系,并将原句表示成层次化的树形结构。
-
如图1所示,EDU2与EDU3存在 “对比(Con trast)”关系,而 EDU2和EDU3整体 与 EDU1存在 “时序之后( Temporal-After)”关系,形成修辞关系结构树。
-
根据“卫星中心”理论,箭头由表示修饰的辅助成分 (Satellite)指向语义关系的中心(Nucle-us)
2.3 宾州篇章树库(PDTB)概述
小结:
-
论元: 由 连接词 衔接的两个片段
-
由连接词引导的论元 记为Arg2,另一论元为Arg1。Arg1和Arg2组成“论元对”
-
显隐式篇章关系,是PDTB根据论元间是否包含连接词进行划分的。
针对目前研究重点关注的显式与隐式关系类型,具体实例分析如下:
-
PDTB中的显式关系,如例1所示,由连接词“but(但是)” 引导的 Arg1和Arg2间 的篇章关系属于 “对比( Comparison)”关系。
-
相对地,隐式关系如例2所示,论元对之间无连接词,但能 根据语义 推断 论元对 之间属于“时序(Temporal)”关系。
- 例2中用方括号注明的 “Implicit=at the time” 是人为添加的,表明论元间的隐式连接词为“ at the time(当时)”。
2.4 中文篇章树库(HIT-CDTB)概述
3. 篇章关系分析任务及评测方法
3.1 修辞结构关系分析
3.2 篇章语义关系分析(基于PDTB和HIT-CDTB)
目前篇章语义分析,主要针对 篇章片段中的语义连接关系 进行识别并分类。
- 任务定义
PDTB 和 HIT-CDTB语料都是针对 篇章语义分析研究 展开标注的。
其中,关于显隐式篇章关系的研究较多,下面以PDTB为例进行介绍。
-
评测方法
-
分别针对 各个篇章语义关系的分类性能 及 篇章语义关系分类的整体性能 进行评测。
-
其中,通过 构建多个分类器 预测 各个 篇章语义关系的分类结果。
-
如,评估 因果关系 的分类性能,可以将该类别的实例作为正例,其他关系类别的实例作为负例。
- 由此,构建二元分类器。
-
通过 准确率P、召回率R、F值、精确率Accuracy 等评测指标,分析该篇章语义关系分类器性能。
-
在评估 篇章语义关系整体分类性能 时,采用 多元分类器,通过 精确率 衡量分类性能。
-