当前位置：首页 » 资讯 » 新科技 » 正文

DeepSeek登上微博热搜榜首

IP属地北京 编辑：顾雨柔三言科技Pro 时间：2025-02-19 13:00:31

三言科技2月19日消息，今日，话题“DeepSeek”登上微博热搜榜首。
昨日，DeepSeek提交了新的论文，值得注意的是其创始人梁文锋是作者之一。
梁文锋还亲自提交了这篇论文。
论文标题为“Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention”（原生稀疏注意力：硬件对齐和原生可训练的稀疏注意力）。
摘要如下：
长上下文建模对下一代大语言模型至关重要，但标准注意力机制的高计算成本带来了重大的计算挑战。
稀疏注意力为提高效率提供了一个有希望的方向，同时保持模型能力。我们介绍NSA，一种原生可训练的稀疏注意力机制，它将算法创新与硬件对齐优化相结合，以实现高效的长上下文建模。NSA采用动态分层稀疏策略，将粗粒token压缩与细粒token选择相结合，以保持上下文意识和本地精度。
我们的方法通过两项关键创新来推进稀疏的注意力设计：
（1）我们通过算术强度平衡算法设计，以及对现代硬件实现优化，实现了大幅度的加速。
（2）我们启用端到端训练，在不牺牲模型性能的情况下减少训练前计算。
实验显示，使用NSA预训练的模型在一般基准、长上下文任务和基于指令的推理中保持或超过全注意力模型。与此同时，NSA在解碼、向前传播和向后传播的64k长度序列上实现了比Full Attention的大幅加速，验证了其在整个模型生命周期中的效率。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

苹果 2025 款 MacBook Air 跑分首曝，M4 芯片加持

制造商推出 MEMDock G2 拓展坞，849 港币

松下LUMIX S1RII配置汇总 4400万像素售价约2.6万

百度蛰伏，剧变前夜？

苹果最薄手机 iPhone 17 Air 再曝：6.7 英寸屏幕、厚 5.64 毫米

能否击败DeepSeek、OpenAI？马斯克发布Grok 3大模型

观点直击 | 阿里巴巴的AI大考

王兴兴知乎十年：从科技迷到商界精英的“逆转人生”

山东港口发布《人工智能（大模型）总体建设规划》

观点直击 | 阿里巴巴的AI大考

YouTube 将推出低价无广告套餐 Premium Lite，瞄准特定用户群体

华擎推出其首款“Pro X3D”系列 AMD 主板，但没有任何特殊之处

亚马逊安卓应用商店宣布 8 月 20 日起关闭

扒一扒宇树王兴兴10年知乎生涯，原来他也走了一条“逆转人生”路

超越DeepSeek？Grok3唯一实锤合作商浮现，直供马斯克+高盛抢筹，蓄势待发

冠军之姿：雷蛇毒蝰 V3 专业版 Faker 限定款发布，1399 元

英伟达发布 Game Ready 572.47 WHQL驱动，支持 RTX 5070 Ti 显卡

普门科技发布2024年度业绩快报，盈利3.467亿元，低于分析师预期

普门科技：2024年净利3.47亿元同比增长5.52%

行业首批！腾讯云TI平台支持DeepSeek全系模型精调与推理

超越ChatGPT的AI智能体（英文）

普门科技Q4净利同比下滑近三成拟年内推出中速发光仪器

王兴兴知乎十年：从科技迷到商界精英的“逆转人生”

Epic喜加二：《花园故事》《僵尸世界大战：劫后余生》游戏免费领

R星宣布《GT5A》3 月 4 日可免费升级次世代特性

郭明錤：iPhone 17 全系搭载苹果自研 Wi-Fi芯片以“增强连接性”

海大集团等在长沙成立农牧科技公司

全站最新

苹果 2025 款 MacBook Air 跑分首曝，M4 芯片加持

制造商推出 MEMDock G2 拓展坞，849 港币

松下LUMIX S1RII配置汇总 4400万像素售价约2.6万

理想、赛力斯遭“围剿” 2025年12款中大型SUV群狼环伺

企业增量与品牌升级

百度蛰伏，剧变前夜？

我出三万帮外甥买房，国庆我女儿结婚，外甥的贺礼让我意外

苹果最薄手机 iPhone 17 Air 再曝：6.7 英寸屏幕、厚 5.64 毫米

热门推荐

苹果 2025 款 MacBook Air 跑分首曝，M4 芯片加持

制造商推出 MEMDock G2 拓展坞，849 港币

松下LUMIX S1RII配置汇总 4400万像素售价约2.6万

百度蛰伏，剧变前夜？

苹果最薄手机 iPhone 17 Air 再曝：6.7 英寸屏幕、厚 5.64 毫米

能否击败DeepSeek、OpenAI？马斯克发布Grok 3大模型

观点直击 | 阿里巴巴的AI大考

王兴兴知乎十年：从科技迷到商界精英的“逆转人生”

山东港口发布《人工智能（大模型）总体建设规划》

观点直击 | 阿里巴巴的AI大考

YouTube 将推出低价无广告套餐 Premium Lite，瞄准特定用户群体

华擎推出其首款“Pro X3D”系列 AMD 主板，但没有任何特殊之处

亚马逊安卓应用商店宣布 8 月 20 日起关闭

扒一扒宇树王兴兴10年知乎生涯，原来他也走了一条“逆转人生”路

超越DeepSeek？Grok3唯一实锤合作商浮现，直供马斯克+高盛抢筹，蓄势待发