机器学习
1. GBDT:梯度提升决策树 的原理和应用
统计学习方法
深度学习
1. 深度学习中是不是层数越多越好?
Transformer相关
1. 为什么 Transformer 需要 positional encoding?
- 如何理解 Transformer 中的 positional encoding
在没有 Position embedding 的 Transformer 模型并不能捕捉序列的顺序,交换单词位置后,attention map 的对应位置数值也会进行交换,并不会产生数值变化,即没有词序信息。所以这时候想要将词序信息加入到模型中。
2. Batch Normalization 和 Layer Normalization的理解
-
BN和LN的具体操作原理
-
BN 和 LN的不同
-
Transformer 和 BERT为什么使用 LN 而不是用BN
BERT相关
1. 为什么BERT输入的最大长度要限制为512?
-
为什么要限制为512 ?
-
文本长度超过512怎么做?
2. BERT蒸馏方法
-
压缩
-
加速
未完待续.........................................