NLP

zoukankan html css js c++ java

NLP
目录
搭建环境和数据准备
读取数据
创建 BERT embedding
创建模型并训练
模型评估结果
模型训练
模型预测
https://eliyar.biz/nlp_chinese_bert_ner/

序列标注任务是中文自然语言处理（NLP）领域在句子层面中的主要任务，在给定的文本序列上预测序列中需要作出标注的标签。常见的子任务有命名实体识别（NER）、Chunk 提取以及词性标注（POS）等。

BERT 模型刷新了自然语言处理的 11 项记录，成为 NLP 行业的新标杆。既然 Google 开源这么好的模型架构和预训练的中文模型，那我们就使用它构建一个序列标注模型。

PS: 最近我开源了一个极简文本分类和序列标注框架 Kashgari,今天的教程将使用这个框架构建模型。如果想了解文本分类，可以看下面的文章。
- NLP - 15 分钟搭建中文文本分类模型
- 2020.5.2 更新：适配 Kashgari 1.x 版本
- ~~2019.7.12 更新：适配 Kashgari-tf 版本~~
搭建环境和数据准备

准备工作，先准备 python 环境，下载 BERT 语言模型。
- Python 3.6 环境
- BERT-Base, Chinese 中文模型
虚拟环境中安装所有需要的依赖
```
pip install "kashgari>=1.1,<2.0"
pip install "tensorflow>=1.14,<2.0"
```
读取数据
```
from kashgari.corpus import ChineseDailyNerCorpus

train_x, train_y = ChineseDailyNerCorpus.load_data('train')
valid_x, valid_y = ChineseDailyNerCorpus.load_data('validate')
test_x, test_y  = ChineseDailyNerCorpus.load_data('test')

print(f"train data count: {len(train_x)}")
print(f"validate data count: {len(valid_x)}")
print(f"test data count: {len(test_x)}")
train data count: 20864
validate data count: 2318
test data count: 4636
```
创建 BERT embedding
```
import kashgari
from kashgari.embeddings import BERTEmbedding

bert_embed = BERTEmbedding('<PRE_TRAINED_BERT_MODEL_FOLDER>',
                           task=kashgari.LABELING,
                           sequence_length=100)
```
创建模型并训练
```
from kashgari.tasks.labeling import BiLSTM_CRF_Model

# 还可以选择 `CNN_LSTM_Model`, `BiLSTM_Model`, `BiGRU_Model` 或 `BiGRU_CRF_Model`

model = BiLSTM_CRF_Model(bert_embed)
model.fit(train_x,
          train_y,
          x_validate=valid_x,
          y_validate=valid_y,
          epochs=20,
          batch_size=512)
```
模型评估结果

模型训练

测试环境: V100, 2CPU 40G 感谢 OpenBayes BayesGear 算力容器提供算力支持。
基础参数:
- batch_size: 2317
- sequence_length: 100
- epochs: 200
F1 score

CNN-LSTM B-LSTM B-LSTM-CRF

bare embedding 0.5275 0.6569 0.6805

Word2vec 0.5042 0.6686 0.7341

BERT 0.8212 0.9043 0.9220

每 epoch 耗时

CNN-LSTM B-LSTM B-LSTM-CRF

bare embedding 4s 7s 19s

Word2vec 5s 7s 20s

BERT 40s 46s 60s

最好成绩是 BERT + B-LSTM-CRF 模型效果最好。详细得分如下：
```
             precision    recall  f1-score   support

        LOC     0.9208    0.9324    0.9266      3431
        ORG     0.8728    0.8882    0.8804      2147
        PER     0.9622    0.9633    0.9627      1797

avg / total     0.9169    0.9271    0.9220      7375
```
模型预测

预测环境: MacBook Pro 13, 2 GHz Intel Core i5, 8G RAM

模型初始化耗时

CNN-LSTM B-LSTM B-LSTM-CRF

bare embedding 13.535s 9.498s 8.739s

Word2vec 20.042s 14.942s 12.553s

BERT 37.952s 21.986s 24.435s

50个句子一次性预测

CNN-LSTM B-LSTM B-LSTM-CRF

bare embedding 1.502s 1.395s 0.869s

Word2vec 1.034s 1.901s 0.876s

BERT 36.463s 31.252s 26.601s

50个句子循环预测时每个句子预测时间

CNN-LSTM B-LSTM B-LSTM-CRF

bare embedding 0.014s 0.019s 0.035s

Word2vec 0.015s 0.019s 0.052s

BERT 0.606s 0.641s 0.573s

可以看得出同样的模型结构，BERT 能大幅度提高，但是也会导致训练时间，模型大小和预测时间大幅度上升。如果想在线实时预测可能性能无法达标，得考虑通过缓存之类的方案解决。
查看全文

相关阅读:
js float浮点数计算精度问题
 NLB多WEB站点访问共享文件解决方案
 Flash文件跨域访问
 博客地址
 在Ubuntu上安装Mysql
Ajax调用NPOI导出Excel报表
 在Ubuntu上安装Mongodb
获取月份的周时间段
 sql表结构和注释
 Highcharts使用指南

原文地址：https://www.cnblogs.com/fldev/p/14406120.html

	CNN-LSTM	B-LSTM	B-LSTM-CRF
bare embedding	0.5275	0.6569	0.6805
Word2vec	0.5042	0.6686	0.7341
BERT	0.8212	0.9043	0.9220

	CNN-LSTM	B-LSTM	B-LSTM-CRF
bare embedding	13.535s	9.498s	8.739s
Word2vec	20.042s	14.942s	12.553s
BERT	37.952s	21.986s	24.435s

	CNN-LSTM	B-LSTM	B-LSTM-CRF
bare embedding	1.502s	1.395s	0.869s
Word2vec	1.034s	1.901s	0.876s
BERT	36.463s	31.252s	26.601s

	CNN-LSTM	B-LSTM	B-LSTM-CRF
bare embedding	0.014s	0.019s	0.035s
Word2vec	0.015s	0.019s	0.052s
BERT	0.606s	0.641s	0.573s

搭建环境和数据准备

读取数据

创建 BERT embedding

创建模型并训练

模型评估结果

模型训练

模型预测

读取数据