当前位置: 首页 » 资讯 » 新科技 » 正文

DeepSeek登上微博热搜榜首

IP属地 北京 编辑:顾雨柔 三言科技Pro 时间:2025-02-19 13:00:31

三言科技2月19日消息,今日,话题“DeepSeek”登上微博热搜榜首。

昨日,DeepSeek提交了新的论文,值得注意的是其创始人梁文锋是作者之一。

梁文锋还亲自提交了这篇论文。

论文标题为“Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention”(原生稀疏注意力:硬件对齐和原生可训练的稀疏注意力)。

摘要如下:

长上下文建模对下一代大语言模型至关重要,但标准注意力机制的高计算成本带来了重大的计算挑战。

稀疏注意力为提高效率提供了一个有希望的方向,同时保持模型能力。我们介绍NSA,一种原生可训练的稀疏注意力机制,它将算法创新与硬件对齐优化相结合,以实现高效的长上下文建模。NSA采用动态分层稀疏策略,将粗粒token压缩与细粒token选择相结合,以保持上下文意识和本地精度。

我们的方法通过两项关键创新来推进稀疏的注意力设计:

(1)我们通过算术强度平衡算法设计,以及对现代硬件实现优化,实现了大幅度的加速。

(2)我们启用端到端训练,在不牺牲模型性能的情况下减少训练前计算。

实验显示,使用NSA预训练的模型在一般基准、长上下文任务和基于指令的推理中保持或超过全注意力模型。 与此同时,NSA在解碼、向前传播和向后传播的64k长度序列上实现了比Full Attention的大幅加速,验证了其在整个模型生命周期中的效率。

免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。