zoukankan      html  css  js  c++  java
  • 測試

    谷歌研究人员在《Universal Transformers》一文中使用一种新型高效的时间并行循环(parallel-in-time recurrence)方式(可在更广泛任务上产生更强大的结果)把标准 Transformer 扩展为计算通用(图灵完备)模型。研究者将该模型建立在 Transformer 的并行结构上,以保持其快速的训练速度。但是他们用单一、时间并行循环的变换函数的多次应用代替了 Transformer 中不同变换函数的固定堆叠(即,相同的学习变换函数在多个处理步骤中被并行应用于所有符号,其中每个步骤的输出馈入下一个)。关键在于,RNN 逐个符号(从左到右)处理序列,而 Universal Transformer 同时处理所有符号(像 Transformer 一样),然后使用自注意力机制在循环处理步骤(步骤数量可变)上,对每个符号的解释进行改进。这种时间并行循环机制比 RNN 中使用的顺序循环(serial recurrence)更快,也使得 Universal Transformer 比标准前馈 Transformer 更强大。

    Universal Transformer 模型使用自注意力机制结合不同位置的信息,应用循环变换函数,以并行化方式重复为序列的每个位置细化一系列向量表征(如图自 h_1 到 h_m)。箭头表示操作间的依赖关系。

  • 相关阅读:
    jQuery代码优化的9种方法
    关于javascript代码优化的8点建议
    javascript编码标准
    前端学算法之算法复杂度
    前端学算法之算法模式
    前端学算法之搜索算法
    前端学算法之排序算法
    前端学数据结构之图
    前端学数据结构之树
    前端学数据结构之字典和散列表
  • 原文地址:https://www.cnblogs.com/edisp/p/9503041.html
Copyright © 2011-2022 走看看