zoukankan      html  css  js  c++  java
  • NLP


    https://eliyar.biz/nlp_chinese_bert_ner/


    序列标注任务是中文自然语言处理(NLP)领域在句子层面中的主要任务,在给定的文本序列上预测序列中需要作出标注的标签。常见的子任务有命名实体识别(NER)、Chunk 提取以及词性标注(POS)等。

    BERT 模型刷新了自然语言处理的 11 项记录,成为 NLP 行业的新标杆。既然 Google 开源这么好的模型架构和预训练的中文模型,那我们就使用它构建一个序列标注模型。

    PS: 最近我开源了一个极简文本分类和序列标注框架 Kashgari,今天的教程将使用这个框架构建模型。如果想了解文本分类,可以看下面的文章。

    搭建环境和数据准备

    准备工作,先准备 python 环境,下载 BERT 语言模型。

    虚拟环境中安装所有需要的依赖

    pip install "kashgari>=1.1,<2.0"
    pip install "tensorflow>=1.14,<2.0"
    

    读取数据

    from kashgari.corpus import ChineseDailyNerCorpus
    
    train_x, train_y = ChineseDailyNerCorpus.load_data('train')
    valid_x, valid_y = ChineseDailyNerCorpus.load_data('validate')
    test_x, test_y  = ChineseDailyNerCorpus.load_data('test')
    
    print(f"train data count: {len(train_x)}")
    print(f"validate data count: {len(valid_x)}")
    print(f"test data count: {len(test_x)}")
    train data count: 20864
    validate data count: 2318
    test data count: 4636
    

    创建 BERT embedding

    import kashgari
    from kashgari.embeddings import BERTEmbedding
    
    bert_embed = BERTEmbedding('<PRE_TRAINED_BERT_MODEL_FOLDER>',
                               task=kashgari.LABELING,
                               sequence_length=100)
    

    创建模型并训练

    from kashgari.tasks.labeling import BiLSTM_CRF_Model
    
    # 还可以选择 `CNN_LSTM_Model`, `BiLSTM_Model`, `BiGRU_Model` 或 `BiGRU_CRF_Model`
    
    model = BiLSTM_CRF_Model(bert_embed)
    model.fit(train_x,
              train_y,
              x_validate=valid_x,
              y_validate=valid_y,
              epochs=20,
              batch_size=512)
    

    模型评估结果

    模型训练

    测试环境: V100, 2CPU 40G 感谢 OpenBayes BayesGear 算力容器 提供算力支持。
    基础参数:

    • batch_size: 2317
    • sequence_length: 100
    • epochs: 200

    F1 score

    CNN-LSTM B-LSTM B-LSTM-CRF
    bare embedding 0.5275 0.6569 0.6805
    Word2vec 0.5042 0.6686 0.7341
    BERT 0.8212 0.9043 0.9220

    每 epoch 耗时

    CNN-LSTM B-LSTM B-LSTM-CRF
    bare embedding 4s 7s 19s
    Word2vec 5s 7s 20s
    BERT 40s 46s 60s

    最好成绩是 BERT + B-LSTM-CRF 模型效果最好。详细得分如下:

                 precision    recall  f1-score   support
    
            LOC     0.9208    0.9324    0.9266      3431
            ORG     0.8728    0.8882    0.8804      2147
            PER     0.9622    0.9633    0.9627      1797
    
    avg / total     0.9169    0.9271    0.9220      7375
    

    模型预测

    预测环境: MacBook Pro 13, 2 GHz Intel Core i5, 8G RAM

    模型初始化耗时

    CNN-LSTM B-LSTM B-LSTM-CRF
    bare embedding 13.535s 9.498s 8.739s
    Word2vec 20.042s 14.942s 12.553s
    BERT 37.952s 21.986s 24.435s

    50个句子一次性预测

    CNN-LSTM B-LSTM B-LSTM-CRF
    bare embedding 1.502s 1.395s 0.869s
    Word2vec 1.034s 1.901s 0.876s
    BERT 36.463s 31.252s 26.601s

    50个句子循环预测时每个句子预测时间

    CNN-LSTM B-LSTM B-LSTM-CRF
    bare embedding 0.014s 0.019s 0.035s
    Word2vec 0.015s 0.019s 0.052s
    BERT 0.606s 0.641s 0.573s

    可以看得出同样的模型结构,BERT 能大幅度提高,但是也会导致训练时间,模型大小和预测时间大幅度上升。如果想在线实时预测可能性能无法达标,得考虑通过缓存之类的方案解决。

  • 相关阅读:
    修改apache的默认访问目录
    禁止浏览器直接访问php文件
    使用Apache Bench进行压力测试
    关于mysql(或MariaDB)中的用户账号格式
    单表查询
    CSS设计指南之一 HTML标记与文档结构
    SQL SERVER技术内幕之10 可编程对象
    SQL SERVER技术内幕之10 事务并发
    观察者模式
    中介者模式
  • 原文地址:https://www.cnblogs.com/fldev/p/14406120.html
Copyright © 2011-2022 走看看