原生稀疏注意力：算法与硬件协同设计助力大模型长上下文高效建模

Chinese

您当前的位置：

首页 >

文章列表页 >

亮点工作 | 更新时间：2026-04-29

- 原生稀疏注意力：算法与硬件协同设计助力大模型长上下文高效建模
- 原生稀疏注意力：算法与硬件协同设计助力大模型长上下文高效建模
- 计算 2026年2卷第3期页码：55-59
- 作者机构：
  
  北京大学
- 作者简介：
- 基金信息：
  
  国家自然科学基金项目（625B2008）
- DOI：
  中图分类号： TP18
- 纸质出版：2026
- 稿件说明：
移动端阅览
袁境阳, 张铭. 原生稀疏注意力：算法与硬件协同设计助力大模型长上下文高效建模[J]. 计算, 2026,2(3):55-59.

袁境阳, 张铭. 原生稀疏注意力：算法与硬件协同设计助力大模型长上下文高效建模[J]. 2026, 2(3): 55-59.
袁境阳, 张铭. 原生稀疏注意力：算法与硬件协同设计助力大模型长上下文高效建模[J]. 计算, 2026,2(3):55-59. DOI：

袁境阳, 张铭. 原生稀疏注意力：算法与硬件协同设计助力大模型长上下文高效建模[J]. 2026, 2(3): 55-59. DOI：

长上下文建模是下一代大语言模型的核心能力，但标准注意力机制的二次复杂度带来了严峻的计算效率挑战。本文介绍原生稀疏注意力（native sparse attention

NSA），一种算法与硬件协同设计的高效注意力机制。NSA通过压缩、选择和滑动窗口三条互补路径实现层次化稀疏处理，同时采用硬件对齐的分块操作和原生训练支持，成功将理论效率转化为实际加速。在64×10～3长度序列上，NSA实现了前向传播最高9倍、解码最高11.6倍的加速，同时保持乃至提升模型性能。

浏览量

下载量

CSCD

文章被引用时，请邮件提醒。

提交

工具集

关联资源

面向深思考的高效混合注意力机制

语言模型的弹性对齐机制

百灵大模型：解构通用智能之路

GLM-4.5:大模型原生融合和应用新范式的开启

数据格局：趋势与方向

相关机构

清华大学

面壁智能

蚂蚁集团

北京智谱华章科技股份有限公司

天立国际控股有限公司

AI问答

⁰