zoukankan      html  css  js  c++  java
  • 【语言处理与Python】7.1信息提取

    信息一个重要的形式是结构化数据。实体和关系的可预测的规范的结构。

    我们首先将自然语言句子这样的非结构化数据转换成表7-1的结构化数据。

    image

    然后利用强大的查询工具,如SQL,这种从文本获取意义的方法被称作信息提取。

    信息提取结构

    如图显示了简单的信息提取系统的结构。

    image

    1、首先使用句子分割器将该文档的原始文本分割成句

    2、使用分词器将每个句子进一步细分为词

    3、对每个句子进行词性标注

    4、命名实体识别

    5、使用关系识别搜索文本中不同实体间可能的关系

    最终生成的结果大致为:(entity,relation,entity)

    要执行前面三项任务,我们可以定义一个函数:

    import nltk,re,pprint
    
    def ie_preprocess(document):
        sentences=nltk.sent_tokenize(document)
        senttences=[nltk.word_tokenize(sent) for sent in sentences]
        sentences=[nltk.pos_tag(sent) for sent in sentences]

    接下来讨论,如何进行之后的步骤,命名实体识别和关系识别。

  • 相关阅读:
    vue
    mongodb
    ejs模板引擎
    ajax
    node.js2
    node.js1
    bootstrap,ECMA
    商城
    面试:----Struts和springmvc的区别--区别上
    OpenStack
  • 原文地址:https://www.cnblogs.com/createMoMo/p/3101706.html
Copyright © 2011-2022 走看看