1.信息抽取介绍
从非结构化数据中,抽取数据。
非结构化数据包括图片、文本、视频、音频等内容,提取特征输入到model中,而结构化数据类似于数据库中的一个个字段。
信息抽取主要包括两个部分:一个是抽取实体,另一个是抽取关系。
信息抽取的典型应用:
2.命名实体识别
(1)简介
小案例:
(2)开源工具
<1>英文工具
<2>中文工具
(3)常用方法
3.关系抽取
(1)方法介绍
(2)基于规则
基于规则的优点:<1>比较准确 <2>不需要训练数据
基于规则的缺点:<1>low recall rate <2>人力成本高 <3>规则本身难以估计
(3)监督学习
4.实体消歧
计算相似度。