zoukankan      html  css  js  c++  java
  • [文献记录]Exploiting Multiple Embeddings for Chinese Named Entity Recognition 利用多个嵌入进行中文命名实体识别

    Exploiting Multiple Embeddings for Chinese Named Entity Recognition 利用多个嵌入进行中文命名实体识别

    代码:ME-CNER

    https://arxiv.org/pdf/1908.10657.pdf

    识别文本中提到的命名实体将在下游级别丰富许多语义应用程序。 但是,由于在微博中普遍使用口语,因此与在正式中文语料库中执行NER相比,中文微博中的命名实体识别(NER)经历了明显的性能下降。 在本文中,我们提出了一个简单而有效的神经框架,以推导中文文本中NER的字符级嵌入,即ME-CNER。 字符嵌入是从丰富的语义信息派生而来的,这些语义信息在从根部,字符到单词级别的多种粒度下得到利用。 实验结果表明,所提出的方法在微博数据集上实现了较大的性能改进,在MSRA新闻数据集上实现了可比的性能,并且与现有的最新技术相比具有较低的计算成本。

    利用偏旁来推断语义

    先前的研究将字符级CNN模型用于NER任务。 但是,CNN强调特定窗口内的局部n-char特征,并且无法捕获长期依赖关系。 为了解决这个问题,我们提出了由GRU层和卷积层组成的卷积门控循环单元(Conv-GRU)网络。 首先,将字符嵌入ci馈入GRU层。

    [mathbf{x}_{i}=operatorname{GRU}left(mathbf{c}_{1}, ldots, mathbf{c}_{i} ight) ]

    然后输出 (mathrm{X}=left[mathrm{x}_{1}, ldots, mathrm{x}_{l} ight]) 被输入到卷积层中,卷积层的长度与输入的长度相同, where (l) 是微博的长度

    [mathrm{Y}=operatorname{Conv}(X) ]

    最后,将卷积层的输出与GRU层的输出连接在一起,以形成每个字符的最终表示形式。

    [mathbf{z}_{i}=mathbf{x}_{i} oplus mathbf{y}_{i} ]

    这样,我们可以将本地上下文和长期依赖关系中的语义知识结合在一起。

    为了对齐分段的单词和字符,我们将单词嵌入复制为其组成字符,for example,组成字符“班”(班级)和“长”(总统)均与嵌入“班长(班级总裁)”的共享word embedding。 如果单词不在单词嵌入的词汇表中,我们将使用随机值初始化其嵌入。

    image-20210125162944436

    我们将字符嵌入分为部首,字符和单词级别,以形成最终的字符表示形式。 然后,我们利用BiRNN-CRF标记器标记每个句子。 BiGRU-CRF由向前和向后的GRU层以及位于前者之上的CRF层组成。 在这里,我们使用腾讯AI Lab [14](https://ai.tencent.com/ailab/nlp/embedding.com)提供的预先训练的嵌入来初始化单词嵌入和字符嵌入。
    html)。

    image-20210125163749828

    实验

    我们利用[11]提供的标准微博NER数据集。
    它由命名实体和名词性提及组成。 另外,我们在正式的文本数据集MSRA新闻数据集[8]上进行实验,该数据集仅包含命名实体。 表1显示了我们使用的两个数据集的统计信息。

    image-20210125163735480

    使用结巴分词。

    对于部首和字符级嵌入,我们将卷积层的内核大小设置为3。 在Conv-GRU框架中,GRU的维度设置为150。嵌入大小固定为200。我们添加丢包的概率为0.8。 我们将每个实验运行五次,然后报告平均准确度,召回率和F1分数。 对于BiGRU标记器,使用BIO方案[13]。

  • 相关阅读:
    最短路径算法
    二叉树遍历的应用
    二叉搜索树
    二叉树的遍历
    Linux 用户和用户组管理-用户信息文件
    Linux脚本安装包
    Linux 源码包安装过程
    RPM包管理-yum在线管理
    Linux RPM命令查询
    Linux RPM管理命令
  • 原文地址:https://www.cnblogs.com/Tony100K/p/14432812.html
Copyright © 2011-2022 走看看