2015 Distilling the Knowledge in a Neural Network

Começar. É Gratuito
ou inscrever-se com seu endereço de e-mail
2015 Distilling the Knowledge in a Neural Network por Mind Map: 2015 Distilling the Knowledge in a Neural Network

1. Abstract

1.1. 提高所有机器学习算法性能的一种非常简单的方法就是在相同的数据上训练许多不同的模型,然后对它们的预测进行平均。但是预测成本高且很麻烦。作者引入一种将集成模型的知识蒸馏在单一的模型中的方法取得了不错的效果

2. Introduction

2.1. 在大规模机器学习中,人们通常在训练和推理阶段使用相似的模型,尽管这两个阶段的要求非常不同。如果可以从繁琐的数据中提取结构,那么我们就愿意训练大模型了。蒸馏就是将繁琐的模型转移到更适合部署的小模型。

3. 名词解释

3.1. teacher - 原始模型或模型ensemble (combersum model) student - 新模型 transfer set - 用来迁移teacher知识、训练student的数据集合 soft target - teacher输出的预测结果(一般是softmax之后的概率) hard target - 样本原本的标签 temperature - 蒸馏目标函数中的超参数 born-again network - 蒸馏的一种,指student和teacher的结构和尺寸完全一样 teacher annealing - 防止student的表现被teacher限制,在蒸馏时逐渐减少soft targets的权重