ALBERT简单note - 走看看

zoukankan html css js c++ java

ALBERT简单note

首先看下BERT和ALBERT模型的一些版本配置

1. Layer个数和performance的关系：24层是个临界点，大于24后效果有下降趋势

2. 隐藏层节点数目和performance的关系：4096个是个临界点，大于4096后效果有下降趋势

3. 宽的ALBERT需要深的架构吗？作者的答案是:NO (但我觉得未必，只是Table里4096还不够宽，如果是1w甚至10w级别的，我想会需要深的)

　　ALBERT-large (H=1024) -- ALBERT-xxlarge (H=4096)

4.下游任务超参设置

Further 比较

1. 可以看到Figure 1.中，每一层的输入和输出的相似度度量的变换是比较平滑的（蓝色），但是并没有趋于0，与Deep Equilibrium Model（DQE）有很大不同

2. 词嵌入维度的影响：对于not-shared类型，随着E增加，效果提升，但作者认为效果提升不大。对于all-shared类型，E=128似乎是最好的。

3. 不要用NSP了，还是用SOP吧

查看全文

相关阅读:
wm
usual
itk_option remove
Label Options
imosflm controller
set font
namespace code
git 之五分钟教程
 git 之五分钟教程
 学习perl正则表达式

原文地址：https://www.cnblogs.com/skykill/p/12916713.html

Copyright © 2011-2022 走看看