轻量模型之Distilling the Knowledge in a Neural Network - 走看看

zoukankan html css js c++ java

轻量模型之Distilling the Knowledge in a Neural Network

1.知识蒸馏介绍

2. 知识蒸馏思想

3.知识蒸馏方法

4.在大数据集上训练专家集成模型

作业

1：推导：推导证明利用logits优化是知识蒸馏的特殊形式

2：文字回答：在知识蒸馏中，温度T的作用是什么？

为了从教师网络中蒸馏出更多，更丰富的信息，引入温度参数T的概念，T越大，网络输出类别概率分布越“soft”,学生网络越能从教师网络中学到更丰富的knowledge。

3：文字回答：知识蒸馏的位置只能是最后输出吗？还可能在网络哪些地方进行蒸馏？

在激活层的输出也可以。

查看全文

相关阅读:
行政区划代码和关键字提取
 清洗数据之地理纬度
 第三周学习进度
 性能战术在代码中的体现
 第二周学习进度
 淘宝网-质量属性场景
 如何做一名好的软件架构师
 寒假学习笔记16
寒假学习笔记15
寒假学习笔记14

原文地址：https://www.cnblogs.com/sariel-sakura/p/13402414.html

Copyright © 2011-2022 走看看