【记录】算法岗面试题综合 - 走看看

zoukankan html css js c++ java

【记录】算法岗面试题综合
机器学习

1. GBDT:梯度提升决策树的原理和应用
统计学习方法

深度学习

1. 深度学习中是不是层数越多越好？

Transformer相关

1. 为什么 Transformer 需要 positional encoding?
- 如何理解 Transformer 中的 positional encoding
在没有 Position embedding 的 Transformer 模型并不能捕捉序列的顺序，交换单词位置后，attention map 的对应位置数值也会进行交换，并不会产生数值变化，即没有词序信息。所以这时候想要将词序信息加入到模型中。
- 为什么是三角函数，具体解释论文中的正弦和余弦公式
- 为什么加入位置编码就可以引入位置信息了
2. Batch Normalization 和 Layer Normalization的理解
- BN和LN的具体操作原理
- BN 和 LN的不同
- Transformer 和 BERT为什么使用 LN 而不是用BN
BERT相关

1. 为什么BERT输入的最大长度要限制为512?
- 为什么要限制为512 ?
- 文本长度超过512怎么做？
2. BERT蒸馏方法
- 压缩
- 加速
未完待续.........................................
查看全文

相关阅读:
关于敏捷开发的一些思考。
【转】浅谈程序猿的职业规划，看你如何决定自己的未来吧。
Individual Project
homework_06 围棋程序改进
 homework 08_2 C++11新特性作业之二
 homework_08
软件工程个人作业——Agile Software Development读后感
 附加题——软件工程之结对编程
 软件工程——PairProject
软件工程第一次个人项目——词频统计by11061153柴泽华

原文地址：https://www.cnblogs.com/douzujun/p/13840512.html

Copyright © 2011-2022 走看看