当前位置: 首页 » 资讯 » 新科技 » 正文

DeepSeek 再放降本大招:NSA 官宣发布,加速推理降低成本

IP属地 北京 编辑:唐云泽 IT之家 时间:2025-02-18 17:31:51

2 月 18 日消息,DeepSeek 今日官宣推出 NSA(Native Sparse Attention),这是一种硬件对齐且原生可训练的稀疏注意力机制,用于超快速长上下文训练与推理。

NSA 的核心组件包括:

动态分层稀疏策略

粗粒度 token 压缩

细粒度 token 选择

DeepSeek 官方表示,该机制可优化现代硬件设计,加速推理同时降低预训练成本,并且不牺牲性能。在通用基准、长上下文任务和基于指令的推理上,其表现与全注意力模型相当或更加优秀。

附论文链接:

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

全站最新