今天看论文 - 走看看

zoukankan html css js c++ java

今天看论文

# 实体关系抽取算法研究
信息抽取的分支
非结构化数据->(半)结构化数据
评测：
- 消息理解会议MUC
- 自动内容抽取ACE
- 文本会议分析TAC

TAC-KBP-ESF：关于人物的25种关系属性，关于组织机构的16种关系属性
半监督的关系抽取算法：bootstrapping算法

创新点：
1. 触发词特征触发力
2. 关系模式的表达方法：语义最短依存路径模式
3. 相似性测度：自底向上的核函数测度
4. 语义约束的bootstrapping模型的构建

## 第一章绪论
### 1.1 课题研究背景以及意义
#### 1.1.1 课题研究背景
信息检索IR->信息抽取IE
IE：通过nlp和ml等技术将 **非结构化数据->结构化数据**

** Entity Relation Extraction (ERE) 实体关系抽取** 是IE领域的重要分支：从自然语言文本中寻找并判定实体对(entity pair之间存在的特定关系。

#### 1.1.2 课题研究的意义
1. 知识库的自动构建
WordNet Freebase
2. 智能信息检索
3. 对问答系统的技术支持
### 1.2 课题研究现状
#### 1.2.1 面向结构化/非结构化文本的实体关系抽取
- xml
- 自由文本：语义分析语义理解
#### 1.2.2 基于规则/机器学习的实体关系抽取
- 有监督：分类问题
- 基于特征向量：关系->特征向量->训练分类器
- 基于核函数：数据组织形式(实体关系)->用核函数表示关系之间的相似度
- 半监督：基于部分标注的样本，实现对数据的关系的自动抽取。常用的有bootstrapping。(本文基于bootstrapping)
- 无监督：刚刚起步
### 1.3 论文的主要工作和研究成果
开放式封闭式的自动关系抽取：热点都是半监督的关系抽取
重点是：基于bootstrapping的改进与融合，以及语义约束的bootstrapping
## 第二章关系抽取算法
IE的三大任务：命名实体识别，关系抽取，事件抽取
### 2.1 关系抽取基础
#### 2.1.1 实体
- 命名实体 Names Enity NE:USA China Gates
- 代词实体 Pronoun Enity PE:we he
- 名词性实体 Nominal Entity NoE:the man the city

实体 ~= 命名实体
命名实体识别:文本->标注额实体的文本
常用的命名实体识别方法有：HMM,CMM,MEM,CRF

#### 2.1.2 实体关系
- 二元实体关系
- 多元实体关系
- 明确关系抽取：通常指的是这一种
- 隐含关系抽取

本文：二元明显关系抽取
### 2.2 关系抽取算法
现在都用ml了
#### 2.2.1 基于机器学习关系抽取算法一般流程
学习-预测
训练样本-测试样本
1. 预处理得到纯文本格式
2. 文本分析对文本的表示和特征的选取对文本进行抽象 (命名实体识别，句法分析，依存分析) 本文用依存树的特征
3. 关系表达 relation representation
4. 关系抽取模型：分类模型

#### 2.2.2 有监督的关系抽取算法
1. 抽取文本中所有的entity pair
2. 构造为候选关系实例
3. ml方法训练分类模型
```分类系统：fR
R代表关系
输入：句子 (包含(e1,e2))的特征
输出: 1：有关
-1：无关
```
***
- 基于特征向量的关系抽取算法
句子->特征->特征向量->训练分类器

句法特征：实体及其类型实体间词序列及其长度两个实体的句法树路径
语义特征：两个实体的依存路径

大多数使用：svm，最大熵模型，条件随机场
**特征的选择是ml算法的关键问题**
- 基于核函数的关系抽取算法
用核函数计算关系实例之间的距离
缺点：
1. 需要人工标注样本
2. 难以扩展到多元关系的抽取中
3. 计算复杂度较高
4. 会产生积累误差
#### 2.2.3 无监督的关系抽取算法
#### 2.2.4 半监督的关系抽取算法
- bootstrapping
也叫自扩展技术
**种子**
构建种子集->训练一个指导性分类器(SVM)->对未标注数据进行预测->找到最可靠的N个实例加入到种子集中->重复
典型模型：snowball
- 协同训练方法
- 标注传播方法
### 2.3 关系抽取算法常用工具及数据集
#### 2.3.1 关系抽取算法常用数据集
- MUC关系抽取任务数据集
- ACE关系抽取任务数据集
- TAC-KBP数据集
ESF任务：抽取关于PER的25种属性和ORG的16种属性
#### 2.3.2 关系抽取算法常用工具
文本分析工具：
- Stanford CoreNLP:对自然语言文本的文本分析，词性还原，词性标注，命名实体标注，共指消解，句法分析，依存分析
- 自然语言工具包 Natural Language Toolkit, NLTK:基于python,中文分词，词形还原，文本分类
- OpenCCG：java
### 2.4 关系抽取算法评测标准
IR和IE的三项基本评价指标：precision, recall, F measure
- Precision
- Recall
- F measure:综合考虑Precision和Recall
f=(2PR)/(P+R)
**f接近1比较好**

查看全文

相关阅读:
对于软件工程这门课程的一些心得
 第一次冲刺（10）
第一次冲刺（7~9）
第一次冲刺（6）
第一次冲刺（5）
第一次冲刺（4）
第一次冲刺（3）
第一次冲刺（2）
Arrays.asList 为什么不能 add 或者 remove 而 ArrayList 可以
 Javascript保证精度的小数乘法

原文地址：https://www.cnblogs.com/theodoric008/p/7625651.html