1.信息抽取介绍

从非结构化数据中,抽取数据。
非结构化数据包括图片、文本、视频、音频等内容,提取特征输入到model中,而结构化数据类似于数据库中的一个个字段。

信息抽取主要包括两个部分:一个是抽取实体,另一个是抽取关系。

信息抽取的典型应用:

2.命名实体识别
(1)简介

小案例:

(2)开源工具
<1>英文工具

<2>中文工具

(3)常用方法

3.关系抽取
(1)方法介绍

(2)基于规则
基于规则的优点:<1>比较准确 <2>不需要训练数据
基于规则的缺点:<1>low recall rate <2>人力成本高 <3>规则本身难以估计
(3)监督学习

4.实体消歧

计算相似度。