NLP（十）Bert - 走看看

zoukankan html css js c++ java

NLP（十）Bert

参考：https://www.cnblogs.com/robert-dlut/p/9824346.html

一、引入

Bert的模型，主要用两种用法，一种就是用来得到word embedding，但这里和word2vec得到的词表示不大一样，Bert得到的是一种context vector，它考虑了上下文；一种就是用来做Fine tuning，就是说我把训练好的Bert再拿去用的时候（比如说句子分类），这里的Bert的参数就可以作为我们的初始化参数，因为Bert得到的模型是相当于添加噪声来训练的模型，所以具有稳定性，用来作为初始化的参数可以帮助加速训练。

二、Bert的机制

《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》。这篇论文把预训练语言表示方法分为了基于特征的方法（代表ELMo）和基于微调的方法（代表OpenAI GPT）。而目前这两种方法在预训练时都是使用单向的语言模型来学习语言表示。ELMO虽然是有从左到右的LSTM，以及从右到左的LSTM，但本质上还是单独分开考虑，而不是同时考虑双向。

如果了解了transformer，那么理解Bert就相对容易很多。因为Bert是在双向transformer上做的，

三、预训练的两个方法

Masked

预测下一个词

查看全文

相关阅读:
实习工作两月
 远程mysql_java.sql.SQLException: null, message from server: "Host 'xxx' is not allowed to connect
大学毕业后拉开差距的真正原因写给将要毕业的自己
 var nameValue=$("#"+name+"DelFlag_"+id).attr("name"); 中的nameValue是一个字符串！并非boolean值
 装饰模式
 数据结构图(非带权图)(js)
WPF的逻辑树与视觉树(1)基本概念
 WPF的动画(2)Animation
集合附加属性(HACK)
WPF的逻辑树与视觉树(2)Visual容器

原文地址：https://www.cnblogs.com/liuxiangyan/p/12751678.html

Copyright © 2011-2022 走看看