当前位置: 首页 » 资讯 » 新科技 » 正文

华为昇腾赋能DeepSeek-R1,Open R1复现项目迎来新进展!

IP属地 北京 编辑:朱天宇 ITBEAR 时间:2025-02-12 04:00:14

华为技术有限公司近期宣布了一项重要进展,其MindSpeed平台现已全面支持DeepSeek V3模型的预训练及微调工作。这一消息标志着华为在人工智能领域的技术实力再次得到彰显。

具体而言,MindSpeed平台在支持DeepSeek V3模型时,采用了高效的并行配置和精细的模型参数设置。这些设置确保了模型在预训练和微调阶段能够达到最佳性能。相关配置和参数的详细信息,以图表形式呈现,清晰直观。

DeepSeek团队通过创新的知识蒸馏技术,成功实现了小型模型在推理能力上的大幅提升。华为表示,他们已在昇腾平台上完成了蒸馏流程的验证,经过蒸馏的Qwen模型在特定领域上的表现取得了显著进步。这一成果为开发者提供了宝贵的参考,使他们能够基于这一流程训练出性能更优的自定义模型。

华为昇腾平台还完成了对Open R1项目的重要适配工作。Open R1是一个旨在完全复现DeepSeek-R1模型流程的开源项目,由Hugging Face官方发起。华为昇腾平台成功打通了Open R1-Zero的GRPO流程,并支持通过vLLM等生态库在训练过程中生成数据。这一进展为DeepSeek-R1模型的训练流程构建提供了有力支持。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新