跳到主要内容

1 篇博文 含有标签「knowledge-distillation」

查看所有标签

利用云端 GPU 动手实践:从零开始蒸馏小模型

随着大语言模型(LLM)的不断发展,如何高效地将大模型的能力“压缩”进小模型成为一个热门课题。知识蒸馏(Knowledge Distillation) 正是实现这一目标的重要手段。它允许我们在有限资源(如单卡 GPU)下,让小模型学习大模型的知识,从而达到在推理速度和部署成本上的双赢。

DeepSeek 团队基于 800k 高质量样本对 Qwen/Llama 等小模型进行蒸馏(论文链接),验证了几个关键结论:

  1. 蒸馏有效迁移推理能力至小模型,蒸馏模型在多项推理任务中表现出色。
  2. 蒸馏比强化学习更高效。在相同资源下,蒸馏方法比直接对小模型进行强化学习训练更能提高性能,其训练成本更低。

本篇博客将带你从零开始,基于开源工具和公有云 GPU 的算力资源,动手实践一个完整的知识蒸馏流程。我们以 DeepSeek-R1 模型生成的回答作为教师知识,训练微软开源的小模型 phi-3-mini-4k-instruct 来模仿它的行为。