北京大学
纸质出版:2026
移动端阅览
袁境阳, 张铭. 原生稀疏注意力:算法与硬件协同设计助力大模型长上下文高效建模[J]. 计算, 2026,2(3):55-59.
袁境阳, 张铭. 原生稀疏注意力:算法与硬件协同设计助力大模型长上下文高效建模[J]. 2026, 2(3): 55-59.
袁境阳, 张铭. 原生稀疏注意力:算法与硬件协同设计助力大模型长上下文高效建模[J]. 计算, 2026,2(3):55-59. DOI:
袁境阳, 张铭. 原生稀疏注意力:算法与硬件协同设计助力大模型长上下文高效建模[J]. 2026, 2(3): 55-59. DOI:
长上下文建模是下一代大语言模型的核心能力,但标准注意力机制的二次复杂度带来了严峻的计算效率挑战。本文介绍原生稀疏注意力(native sparse attention
NSA),一种算法与硬件协同设计的高效注意力机制。NSA通过压缩、选择和滑动窗口三条互补路径实现层次化稀疏处理,同时采用硬件对齐的分块操作和原生训练支持,成功将理论效率转化为实际加速。在64×10~3长度序列上,NSA实现了前向传播最高9倍、解码最高11.6倍的加速,同时保持乃至提升模型性能。
0
浏览量
下载量
CSCD
关联资源
相关文章
相关作者
相关机构