大家好,我是小发猫。今天又要跟大家讲故事了。
18日结束时,BERT( 《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》)刷新了所有主要NLP公共号码和新闻媒体,创下了11项自然语言处理记录的新纪录,也被称为2019年最强的自然语言处理模式。
作者很早就把论文读完了,很长时间没有开始工作。一方面,他很懒,各种事情都被耽搁了。另一方面,在完成具体任务的具体练习后,他仍然想与每个人分享交流。不用说,让我们言归正传。2019年是最强的自然语言处理模型BERT(注释修饰符2018,因为最近出现的由OpenAI研究人员训练的超大规模15亿参数模型进一步打破了记录,打开了一个1.17亿小模型和代码:https://github.com/openai/gpt-2,感兴趣的读者可以阅读)
伯特模型概述
为了理解PaperBERT模型,我们需要回顾一下谷歌之前发表的一些观点和论文。首先,让我们简要回顾seq2seq,然后谈谈注意引入的变压器模型,最后看看BERT模型的细节和创新之处。
Seq2Seq
关于Seq2Seq的模型抽象,作者在一系列关于分词算法(关于分词算法(5)基于词的分词方法(bi-LSTM))的博客帖子中反复提及,在分词或词性标注的自然语言处理任务中,我们将文本序列映射到另一个结果序列,如词性标注、分词BEMS标注等。
然而,在另一个自然语言处理任务中,即机器翻译,它也可以抽象成一个序列到序列的模型。在谷歌2014年的论文《基于神经网络的序列到序列学习》中,提出了一种端到端的序列到序列映射模型。LSTM分别用于编码和解码操作,在英语和法语的互译中取得了很大的成绩。与经典模型相比,有很多在线材料。让我们简单谈谈这个模型。详细的读者可以翻看论文和各种材料。
Seq2Seq是一个序列到序列模型,映射输入序列((x_1,x_2,x_T))转换为输出序列 ((y _ 1,y _ 2,y _ { t ' })),其中每个(y_t)取决于先前的输出值(y_1,y_2,y_{t-1}),并且还值得注意的是,在大多数应用场景中,输入序列和输出序列的长度是不相等的。NMT是Seq2Seq的典型应用场景,它基于条件概率将输入序列的一种语言翻译成输出序列的另一种语言:
[p(y1,y2,y_{T'}|x_1,x_2,X_T)]
[h _ t=编码器(h_{t-1},x_t)]
[s _ t=解码器(s_{t-1},y_{t-1},c_t)]
其中(c_t)表示由注意机制计算的上下文信息:
[c _ t=注意(s_{t-1},mathbf{h})]
条件概率可以通过以下公式计算:
[p(y_1,y_{T'}|x_1,x_T)=prod_{t=1}^{T'}p(y_t|y_{
如果您有互联网问题,也可以咨询我,谢谢!如果你也想一起学习人工智能,欢迎留言交流。