大模型压缩蒸馏

1. 模型压缩方法介绍

知识蒸馏的本质是将一个大模型的知识转移到一个小模型上，从而实现模型的压缩和加速。知识蒸馏通常包括两个步骤：训练一个教师模型和一个学生模型，然后通过某种方式将教师的知识迁移到学生模型中。这种方法可以有效地减少模型的参数量和计算量，同时保持或提高模型的性能

降低算力与成本 DeekSeek通过蒸馏技术将模型训练成本压缩至OpenAI同类模型的1/20。例如，DeekSeek-V3仅消耗278.8万GPU小时(成本约557.6万美元)