科技新突破 | DeepSeek提出全新注意力机制架构长上下文建模更高效

2025-02-19 16:45:40 来源: 科技日报点击数：

2月16日，DeepSeek研究团队在arXiv上发表论文，提出了一种全新的注意力机制架构NSA（Native SparseAttention，原生稀疏注意力），专为超快长上下文训练和推断而设计，具有硬件对齐的特点，梁文锋参与共创。

（科技日报赵卫华李忠明）

责任编辑：冷媚

热点

Copyright © Science and Technology Daily, All Rights Reserved: 科技日报社中国科技网版权所有

1.将浏览器切换回极速模式