測試 - 走看看

zoukankan html css js c++ java

測試

谷歌研究人员在《Universal Transformers》一文中使用一种新型高效的时间并行循环（parallel-in-time recurrence）方式（可在更广泛任务上产生更强大的结果）把标准 Transformer 扩展为计算通用（图灵完备）模型。研究者将该模型建立在 Transformer 的并行结构上，以保持其快速的训练速度。但是他们用单一、时间并行循环的变换函数的多次应用代替了 Transformer 中不同变换函数的固定堆叠（即，相同的学习变换函数在多个处理步骤中被并行应用于所有符号，其中每个步骤的输出馈入下一个）。关键在于，RNN 逐个符号（从左到右）处理序列，而 Universal Transformer 同时处理所有符号（像 Transformer 一样），然后使用自注意力机制在循环处理步骤（步骤数量可变）上，对每个符号的解释进行改进。这种时间并行循环机制比 RNN 中使用的顺序循环（serial recurrence）更快，也使得 Universal Transformer 比标准前馈 Transformer 更强大。

Universal Transformer 模型使用自注意力机制结合不同位置的信息，应用循环变换函数，以并行化方式重复为序列的每个位置细化一系列向量表征（如图自 h_1 到 h_m）。箭头表示操作间的依赖关系。

查看全文

相关阅读:
中断高深吗？不！和我一起了解它！(三)
IIS7下uploadify上传大文件出现404错误
 初来博客园
 cxf3.x +spring 3.x（4.x）+ maven 发布webservice 服务
 angularjs + fis +modJS 对于支持amd规范的组建处理(PhotoSwipe 支持，百度webUpload支持)
elasticsearch suggest 的几种使用completion 的基本使用
 使用github+sublime+markdwon 写文章，写博客并发布到博客园
 小互联网公司
 linux pts
linux添加用户例如oracle

原文地址：https://www.cnblogs.com/edisp/p/9503041.html

Copyright © 2011-2022 走看看