2月16日,DeepSeek研究团队在arXiv上发表论文,提出了一种全新的注意力机制架构NSA(Native SparseAttention,原生稀疏注意力),专为超快长上下文训练和推断而设计,具有硬件对齐的特点,梁文锋参与共创。
(科技日报 赵卫华 李忠明)
2月16日,DeepSeek研究团队在arXiv上发表论文,提出了一种全新的注意力机制架构NSA(Native SparseAttention,原生稀疏注意力),专为超快长上下文训练和推断而设计,具有硬件对齐的特点,梁文锋参与共创。
(科技日报 赵卫华 李忠明)