GPT and BERT - 走看看

zoukankan html css js c++ java

GPT and BERT
目录
概
主要内容
GPT
BERT
Radford A., Narasimhan K., Salimans T. and Sutskever I. Improving language understanding by generative pre-training. 2018.

Devlin J., Chang M., Lee K. and Toutanova K. BERT: Pre-training of deep bidirectional transformers for language understanding. In Conference the North American Chapter of the Association for Computational Linguistics Human Language Technologies (NAACL-HLT), 2019.

概

两个经典的NLP的预训练模型.

主要内容

GPT

就是普通的transformer, 注意的是tokens之间的联系方式是auto-regressive的:

[P(x_i|x_{i-k}, cdots, x_{i-1} ; heta). ]
即每个token仅与之前的tokens有关.

BERT

与GPT最为不同的是, BERT并非是auto-regressive的, 即其认为一个词可以通过上下文关联起来:

[P(x_i|X), ]
在实际中, BERT对部分的词mask掉, 相当于用别的词来推断:

[P(x_i|x_j, ot in M). ]

切除了普通的positional embeddings, 额外增加了segment embeddings, 用来标记不同的句子. 这么设计是认为很多下游任务都能通过两个部分的结构来表示.
查看全文

相关阅读:
精品博文
 updat.vbs u盘病毒
 望远镜对科技发展的影响极其深远，有了望远镜之后，人类才知道世界是怎样的。大数据就是帮你看到一个大到你以前根本看不到的世界。
通过显微镜，人们又看到了一个活生生的但是肉眼看不到的世界。透过成千上万的点击数据，在线世界也就变得更为鲜活，更有意义了。
如果能够提前10分钟知道飞机在哪里，结果就会大不一样，这就是雷达的价值。数据也可以帮助你做到这一点。过去国家想要知道进出口贸易的情况，要查看海关的数据，但这个数据实际上是事情发生了很久以后才汇总的数据。但阿里巴巴的国际贸易数据是不一样的，从第一天买家询盘开始你就可以预测会发生什么。
我曾对员工讲，我们做阿里云计算平台，要努力做到让创业者发自内心地相信，在阿里云计算平台上创新、创业，照样可以做成上市公司，甚至会比阿里巴巴还要厉害。有了这样的信任度，云计算才能真正做起来。
纸币的出现是货币发展过程中极其重要的里程碑，因为的价值体现已不是贵金属的重量，而是信用，信用成为真正的财富。古人可以信任在一张纸上盖个章就代表财富，实在是太需要勇气了，这也是信任度极高的表现。
云解放了计算机这台机器，让计算的能力彻底从一个箱子里释放出来，回归了计算的本质。
如何区分云计算和非云计算，首先得看它的核心本质——计算是否在线，计算的使用是否通过互联网完成。我从在阿里巴巴做云计算的第一天开始，就告诉自己：“云计算是一个社会最基础的公共服务，就像电一样。”
私有云的热衷者利用大家对安全的担心向人们兜售硬件和软件产品，但事实上一旦你的计算设备连上网络，所有人面临的安全问题都是一模一样的，正如对交流电打压最凶的人，不是用电的人，而是发明电的人。

原文地址：https://www.cnblogs.com/MTandHJ/p/14907391.html

Copyright © 2011-2022 走看看