【语言处理与Python】7.1信息提取 - 走看看

zoukankan html css js c++ java

【语言处理与Python】7.1信息提取
信息一个重要的形式是结构化数据。实体和关系的可预测的规范的结构。

我们首先将自然语言句子这样的非结构化数据转换成表7-1的结构化数据。

然后利用强大的查询工具，如SQL，这种从文本获取意义的方法被称作信息提取。

信息提取结构

如图显示了简单的信息提取系统的结构。

1、首先使用句子分割器将该文档的原始文本分割成句

2、使用分词器将每个句子进一步细分为词

3、对每个句子进行词性标注

4、命名实体识别

5、使用关系识别搜索文本中不同实体间可能的关系

最终生成的结果大致为：(entity,relation,entity)

要执行前面三项任务，我们可以定义一个函数：
import nltk,re,pprint def ie_preprocess(document): sentences=nltk.sent_tokenize(document) senttences=[nltk.word_tokenize(sent) for sent in sentences] sentences=[nltk.pos_tag(sent) for sent in sentences]
接下来讨论，如何进行之后的步骤，命名实体识别和关系识别。
查看全文

相关阅读:
Mysql 权限命令整理大全
 阿里云ECS发送邮件失败
 彻底删除Kafka中的topic
mysql Slave 启动失败
 mysql双主热备
 mysql 主从笔记
 mysql主从同步的键值冲突问题的解决方法
 python0.2----如何在windows下搭建最简洁的python环境
 内存0.1---内存里数据的表示形式以及进制转换
 python0.1-----pyhon的优缺点，为何学习python

原文地址：https://www.cnblogs.com/createMoMo/p/3101706.html

Copyright © 2011-2022 走看看