zoukankan      html  css  js  c++  java
  • Bert whole mask为什么效果比mask字效果更好?

    论文What Does BERT Look At? An Analysis of BERT’s Attention  指出bert的多头注意力,不同的头可以学到不同的信息,有的学到词法、有的学到语法、语义。

    论文地址:https://arxiv.org/pdf/1908.11365.pdf

    举例如:现在好饿呀,我们去吃饭,好不好?  MASK字的方式:  现在好饿呀,我们去吃[MASK],好不好? 

    MASK词的方式: 现在好饿呀,我们去[MASK] [MASK],好不好?  可以发现MASK字的话模型很容易根据“吃”推断出MASK位置是“饭”的概率很高。

    而MASK词的方式明显将任务的难度扩大,需要学习更多的上下文比如上文中“饿”的信息,来推断出两个MASK位置可能是“吃饭”的可能性比较大。

    所以说MASK词的方式使得模型预训练时被迫更加关注上下文信息,学到更多的语义,从而下游任务能够表现更好。

    三年程序员,专注语音文本分析、大数据挖掘、预训练模型及知识图谱相关技术的探索
  • 相关阅读:
    静态库,动态库
    vim
    消息队列-Rabbitmq处理消息及在Spring中的应用
    消息队列 -- 队列(Queue)和主题(Topic)
    Sing的签名算法
    Jquery
    VUE
    node
    vue 加载静态图片
    vue :style 动态绑定style
  • 原文地址:https://www.cnblogs.com/jetHu/p/14228918.html
Copyright © 2011-2022 走看看