zoukankan      html  css  js  c++  java
  • NLP(十)Bert

    参考:https://www.cnblogs.com/robert-dlut/p/9824346.html

    一、引入

     Bert的模型,主要用两种用法,一种就是用来得到word embedding,但这里和word2vec得到的词表示不大一样,Bert得到的是一种context vector,它考虑了上下文;一种就是用来做Fine tuning,就是说我把训练好的Bert再拿去用的时候(比如说句子分类),这里的Bert的参数就可以作为我们的初始化参数,因为Bert得到的模型是相当于添加噪声来训练的模型,所以具有稳定性,用来作为初始化的参数可以帮助加速训练。

    二、Bert的机制

    《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》。这篇论文把预训练语言表示方法分为了基于特征的方法(代表ELMo)和基于微调的方法(代表OpenAI GPT)。而目前这两种方法在预训练时都是使用单向的语言模型来学习语言表示。ELMO虽然是有从左到右的LSTM,以及从右到左的LSTM,但本质上还是单独分开考虑,而不是同时考虑双向。

    如果了解了transformer,那么理解Bert就相对容易很多。因为Bert是在双向transformer上做的,

    三、预训练的两个方法

    Masked

    预测下一个词

  • 相关阅读:
    DDK 的一些笔记
    C# 32位程序访问64位系统注册表
    自己对设备栈的理解
    简单驱动编写与windbg调试
    DDK 的一些笔记other
    USB设备的一些概念
    C# 32位程序与64位程序读\写注册表的区别
    dbca建库时找不到ASM磁盘
    sf01_什么是数据结构
    cPickle.dump函数
  • 原文地址:https://www.cnblogs.com/liuxiangyan/p/12751678.html
Copyright © 2011-2022 走看看