zoukankan      html  css  js  c++  java
  • 源码阅读笔记 BiLSTM+CRF做NER任务(一)

    源码地址:https://github.com/ZhixiuYe/NER-pytorch

    本篇主要介绍NER任务、Conll 2003(English)数据集及数据集相关统计

    一、NER任务

    NER(命名实体识别)是一项基础任务,通常是做知识图谱等任务的必要过程。一般是指给定一段文本,识别出里面的实体,实体主要包括人名、地名、机构名、时间、数量等等。如:

    二、数据集

    1.数据集说明

    使用的是CoNLL 2003(English),数据的每行为一个单词,每个句子单位由空行隔开。

    每行的第一项是单词,第二项是词性标记,第三项是句法块标记,第四项是命名实体标签。示例如下:

    实体类型包含四类:人名(PER)、地名(LOC)、组织名(ORG)、其他实体名(MISC)

    数据由三个文件组成:一个训练文件和两个测试文件testa和testb。testa作为测试集用于确定最佳的参数。testb作为测试集用于最终评估。

    注意:命名实体标签的格式为I-type,这意味着单词位于类型为的短语中。只有当同一类型的两个短语紧跟在一起时,第二个短语的第一个单词才会有标记B-type来表示它开始一个新短语。

    2.数据集相关统计

    1)实体名数量统计

     2)实体名长度统计

    3)实体名长度最长的实体名统计

  • 相关阅读:
    抽奖系统 random()
    JavaScript 稀奇的js语法
    Node初识笔记 1第一周
    vue 自定义指令
    vue 组件 单选切换控制模板 v-bind-is
    学习网址
    vue 组件 子向父亲通信用自定义方法用事件监听
    vue 组件 模板中根数据绑定需要指明路径并通信父
    vue 组件 模板input双向数据数据
    测试样式
  • 原文地址:https://www.cnblogs.com/zhuangzi101/p/12747839.html
Copyright © 2011-2022 走看看