深度面经1
怎么解决梯度消失问题? 解答
批量归一化的思想,还了解其他归一化吗? 解答
说下adam的思想,Adam和Adagrad的区别
huber函数了解吗?和l1、l2比起来优势是啥 解答
pooling有什么意义/pooling 怎么做反向传播/max-pooling 的反向传播怎么做?解答
感受野的理解 解答
激活函数的意义 解答
加速网络收敛的办法 解答
介绍一下word2vec 解答
BERT的两种预训练方式 解答
了解过BERT吗,里面的三种embedding分别是什么,为什么要这样做?解答
Transformer面经1
介绍一下transformer
transformer里面的两种mask操作 解答
transformer为什么要加残差啥的
rnn,lstm,gru区别与联系
dropout原理/dropout训练和测试有什么区别吗?解答