2025-03-26 01:21:32 作者:
3月25日,DeepSeek官方宣布,其DeepSeek V3模型已完成一次小版本升级。当前最新版本号为DeepSeek-V3-0324。用户可以通过访问官方网页、App或小程序进入对话界面,并在关闭深度思考功能后体验新版本,API接口及使用方式保持不变。
尽管此次更新属于小版本调整,但从实际反馈来看,性能提升效果显著。新版模型在前端开发、数学推理和上下文理解等方面表现出明显进步。据悉,V3模型借鉴了DeepSeek-R1模型训练过程中采用的强化学习技术,从而大幅提升推理任务的表现水平。在数学与代码相关的评测集上,该模型取得了超越GPT-4.5的成绩。
在HTML等前端代码生成任务中,新版V3模型生成的代码不仅更具实用性,而且在视觉效果上更加美观、富有设计感。此外,在中文写作任务方面,新版模型基于R1版本的写作能力进行了进一步优化,特别是在中长篇文本创作的内容质量上有了显著提升。
当处于联网搜索场景时,新版V3模型在处理报告生成类指令时,能够输出更详实准确的内容,同时排版更加清晰美观。此外,该模型在工具调用、角色扮演、问答闲聊等功能方面也得到了一定幅度的能力提升。
根据DeepSeek官方介绍,DeepSeek-V3-0324与之前的DeepSeek-V3版本使用相同的base模型,仅对后训练方法进行了改进。在私有化部署时,只需更新checkpoint和tokenizer_config.json(涉及工具调用相关变动)。该模型参数规模约为660亿,开源版本支持的最大上下文长度为128K(网页端、App和API提供64K上下文)。
与DeepSeek-R1保持一致,此次DeepSeek开源仓库(包括模型权重)统一采用MIT License授权,允许用户通过模型输出或模型蒸馏等方式训练其他模型。