1.知识蒸馏介绍
2. 知识蒸馏思想
3.知识蒸馏方法
4.在大数据集上训练专家集成模型
作业
1:推导:推导证明利用logits优化是知识蒸馏的特殊形式
2:文字回答:在知识蒸馏中,温度T的作用是什么?
为了从教师网络中蒸馏出更多,更丰富的信息,引入温度参数T的概念,T越大,网络输出类别概率分布越“soft”,学生网络越能从教师网络中学到更丰富的knowledge。
3:文字回答:知识蒸馏的位置只能是最后输出吗?还可能在网络哪些地方进行蒸馏?
在激活层的输出也可以。