Toon volledige map

Kopieer en bewerk map Kopieer

2015 Distilling the Knowledge in a Neural Network

YY

Yang Yang

Volg

Laten we beginnen. Het is Gratis

of registreren met je e-mailadres

Vergelijkbare mind mappen Overzicht van map

2015 Distilling the Knowledge in a Neural Network Door Yang Yang Mind Map: 2015 Distilling the Knowledge in a Neural Network

Mind Map: 2015 Distilling the Knowledge in a Neural Network

1. 名词解释

1.1. teacher - 原始模型或模型ensemble （combersum model） student - 新模型 transfer set - 用来迁移teacher知识、训练student的数据集合 soft target - teacher输出的预测结果（一般是softmax之后的概率） hard target - 样本原本的标签 temperature - 蒸馏目标函数中的超参数 born-again network - 蒸馏的一种，指student和teacher的结构和尺寸完全一样 teacher annealing - 防止student的表现被teacher限制，在蒸馏时逐渐减少soft targets的权重

2. Abstract

2.1. 提高所有机器学习算法性能的一种非常简单的方法就是在相同的数据上训练许多不同的模型，然后对它们的预测进行平均。但是预测成本高且很麻烦。作者引入一种将集成模型的知识蒸馏在单一的模型中的方法取得了不错的效果

3. Introduction

3.1. 在大规模机器学习中，人们通常在训练和推理阶段使用相似的模型，尽管这两个阶段的要求非常不同。如果可以从繁琐的数据中提取结构，那么我们就愿意训练大模型了。蒸馏就是将繁琐的模型转移到更适合部署的小模型。

of Registreren