华为技术有限公司近期宣布了一项重要进展,其MindSpeed平台现已全面支持DeepSeek V3模型的预训练及微调工作。这一消息标志着华为在人工智能领域的技术实力再次得到彰显。
具体而言,MindSpeed平台在支持DeepSeek V3模型时,采用了高效的并行配置和精细的模型参数设置。这些设置确保了模型在预训练和微调阶段能够达到最佳性能。相关配置和参数的详细信息,以图表形式呈现,清晰直观。
DeepSeek团队通过创新的知识蒸馏技术,成功实现了小型模型在推理能力上的大幅提升。华为表示,他们已在昇腾平台上完成了蒸馏流程的验证,经过蒸馏的Qwen模型在特定领域上的表现取得了显著进步。这一成果为开发者提供了宝贵的参考,使他们能够基于这一流程训练出性能更优的自定义模型。
华为昇腾平台还完成了对Open R1项目的重要适配工作。Open R1是一个旨在完全复现DeepSeek-R1模型流程的开源项目,由Hugging Face官方发起。华为昇腾平台成功打通了Open R1-Zero的GRPO流程,并支持通过vLLM等生态库在训练过程中生成数据。这一进展为DeepSeek-R1模型的训练流程构建提供了有力支持。