zoukankan      html  css  js  c++  java
  • 跟我读论文丨ACL2021 NER 模块化交互网络用于命名实体识别

    摘要:本文是对ACL2021 NER 模块化交互网络用于命名实体识别这一论文工作进行初步解读。

    本文分享自华为云社区《ACL2021 NER | 模块化交互网络用于命名实体识别》,作者: JuTzungKuei 。

    论文: Li Fei, Wang Zheng, Hui Siu Cheung, Liao Lejian, Song Dandan, Xu Jing, He Guoxiu, Jia Meihuizi. Modularized Interaction Network for Named Entity Recognition [A]. Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers) [C]. Online: Association for Computational Linguistics, 2021, 200–209.

    链接:https://aclanthology.org/2021.acl-long.17.pdf

    代码:无

    0、摘要

    • 现有NER模型缺点
      • 基于序列标注的NER模型:长实体识别不佳,只关注词级信息
      • 基于分段的NER模型:处理分段,而非单个词,不能捕获分段中的词级依赖关系
    • 边界检测和类型预测可以相互配合,两个子任务可共享信息,相互加强
    • 提出模块化交互网络模型MIN(Modularized Interaction Network)
      • 同时利用段级信息和词级依赖关系
      • 结合一种交互机制,支持边界检测和类型预测之间的信息共享
    • 三份基准数据集上达到SOTA

    1、介绍

    • NER:查找和分类命名实体,person (PER), location
      (LOC) or organization (ORG),下游任务:关系抽取、实体链接、问题生成、共引解析
    • 两类方法
      • 序列标注 sequence labeling:可捕获词级依赖关系
      • 分段 segment(a span of words):可处理长实体
    • NER:检测实体边界和命名实体的类型,
      • 分成两个子任务:边界检测、类型预测
      • 两个任务之间是相关的,可以共享信息
    • 举栗:xx来自纽约大学
      • 如果知道大学是实体边界,更可能会预测类型是ORG
      • 如果知道实体有个ORG类型,更可能会预测到“大学”边界
    • 上述两个常用方法没有在子任务之间共享信息
      • 序列标注:只把边界和类型当做标签
      • 分段:先检测片段,再划分类型
    • 本文提出MIN模型:NER模块、边界模块、类型模块、交互机制
      • 指针网络作为边界模块的解码器,捕捉每个词的段级信息
      • 段级信息和词级信息结合输入到序列标注模型
      • 将NER划分成两个任务:边界检测、类型预测,并使用不同的编码器
      • 提出一个相互加强的交互机制,所有信息融合到NER模块
      • 三个模块共享单词表示,采用多任务训练
    • 主要贡献:
      • 新模型:MIN,同时利用段级信息和词级依赖
      • 边界检测和类型预测分成两个子任务,结合交互机制,使两个子任务信息共享
      • 三份基准数据集达到SOTA

    2、方法

    最终NER输出:H^{NER}=W^T[H;H^B;H^T;H^S] + bHNER=WT[H;HB;HT;HS]+b
    H^{Bdy}HBdy表示边界模块输出,H^{Type}HType表示类型模块输出,H^{Seg}HSeg表示分段信息

      • CRF解码:转移概率 + 发射概率
    • 边界模块:双向LSTM编码H^{Bdy}HBdy,单向LSTM解码
      • 解码:
        s_j=h_{j-1}^{Bdy}+h_{j}^{Bdy}+h_{j+1}^{Bdy}sj​=hj−1Bdy​+hjBdy​+hj+1Bdy
        d_j=LSTM(s_j, d_{j-1})dj​=LSTM(sj​,dj−1​)
      • Biaffine Attention机制:

    • 类型模块:BiLSTM + CRF
    • 交互机制:
      • self attention 得到标签增强的边界H^{B-E}HBE,类型H^{T-E}HTE
      • Biaffine Attention 计算得分 alpha^{B-E}αBE
      • 交互后的边界:r_i^{B-E}=sum_{j=1}^{n}alpha_{i,j}^{B-E}h_j^{T-E}riBE​=∑j=1nαi,jBEhjTE
      • 更新后的边界:overline{h}_i^{Bdy}=[h_i^{B-E},r_i^{B-E}]hiBdy​=[hiBE​,riBE​]
      • 更新后的类型:overline{h}_i^{Type}=[h_i^{T-E},r_i^{T-E}]hiType​=[hiTE​,riTE​]
    • 联合训练:多任务
      • 每个任务的损失函数

      • 最终损失函数:mathcal{L}=mathcal{L}^{NER}+mathcal{L}^{Type}+mathcal{L}^{Bdy}L=LNER+LType+LBdy

    3、结果

    • Baseline (sequence labeling-based)
      • CNN-BiLSTM-CRF
      • RNN-BiLSTM-CRF
      • ELMo-BiLSTM-CRF
      • Flair (char-BiLSTM-CRF)
      • BERT-BiLSTM-CRF
      • HCRA (CNN-BiLSTM-CRF)
    • Baseline (segment-based)
      • BiLSTM-Pointer
      • HSCRF
      • MRC+BERT
      • Biaffine+BERT

    号外号外:想了解更多的AI技术干货,欢迎上华为云的AI专区,目前有AI编程Python等六大实战营供大家免费学习。

     

    点击关注,第一时间了解华为云新鲜技术~

  • 相关阅读:
    Idea快捷键
    基于LinkedHashMap实现一个基于LRU算法的缓存设计
    SpringBoot整合Mybatis
    MyBatis Generator自动生成代码
    java.sql.SQLException: The server time zone value 'Öйú±ê׼ʱ¼ä' is unrecognized or represents more
    Dubbo的异步调用
    Jackson的ObjectMapper的简单用法及语法
    mysql实例代码
    6. Z 字形变换
    13. 罗马数字转整数
  • 原文地址:https://www.cnblogs.com/huaweiyun/p/15136167.html
Copyright © 2011-2022 走看看