当前位置:首页 > Deepseek最新资讯 > 正文内容

【中原计算机】人工智能专题:DeepSeek的稀疏注意力机制给AI产业释放更大的

8个月前 (10-17)Deepseek最新资讯319

  人类在处理信息时选择性地关注关键信息,从而提高了处理效率和准确性。深度学习模仿人类的这种能力引入了注意力机制,从而给长文本处理带来了可能性。

  由于注意力机制面临显存开销和计算复杂度两大发展瓶颈,为了不断通过Scaling Law提升大模型长文本处理能力和模型性能,AI产业不断在进行算法、系统、硬件三个层面的提升和优化。其中在算法层面,DeepSeek作为开源大模型领域的代表和低成本模型方向的标杆,在注意力机制的技术改进方面也做了大量的工作。

  DSA:2025年9月DeepSeek发布了V3.2-Exp,它基于V3.1-Terminus构建,引入了新的注意力机制DSA,在保持模型性能的稳定的同时,在训练推理效率方面有了较大的提升,带来了模型较大幅度的降价。由于不需要重新训练模型,而是进行原有模型的升级,可以更低成本地进行稀疏注意力的探索与实验。

  稀疏注意力的引入将注意力计算复杂度从O(L²)(L为序列长度)降至亚平方级(如O(Llog L)、(O(L*k)),从而突破内存与算力瓶颈。此前,稀疏注意力工作主要集中在推理阶段,而业界预训练阶段多采用稠密注意力机制,而DeepSeek的NSA和DSA在训练阶段引入了稀疏注意力,给大模型带来的计算效率的提升和模型上下文的拓展,将给后训练释放更大的发展潜能,成为推动模型能力不断突破的重要支撑。

  人类在处理信息时选择性地关注关键信息,从而提高了处理效率和准确性。深度学习模仿人类的这种能力引入了注意力机制(Attention Mechanism),从而给长文本处理带来了可能性。2017年,谷歌提出了发布论文《Attention Is All You Need》提出了当前大语言模型的主流架构Transformer,Attention成为了大模型的核心模块,并解决了此前主流循环神经网络(RNN)的长序列遗忘问题。而后,稀疏注意力的引入将注意力计算复杂度从O(L²)(稠密注意力的计算复杂度,L为序列长度)降至亚平方级(如O(L*log L)、(O(L*k),稀疏注意力仅部分连接,效率更高),从而突破内存与算力瓶颈。时至今日,经过多代技术迭代,大模型上下文已经扩充到了128K甚至是1M的长度水平。

  由于注意力机制面临显存开销和计算复杂度两大发展瓶颈,为了不断通过Scaling Law提升大模型长文本处理能力和模型性能,AI产业不断在进行算法、系统、硬件三个层面的提升和优化。其中在算法层面,DeepSeek作为开源大模型领域的代表和低成本模型方向的标杆,在注意力机制的技术改进方面也做了大量的工作,其三次主要的贡献包括:

  传统的多头注意力的键值缓存(KV Cache)较大,DeepSeek通过将低秩近似方法引入键值缓存压缩中,从而提升了计算效率。MLA将注意力分数的显存占用减少了约90%,同时保持了模型的性能,也成为了R1成本显著低于头部模型的重要因素。

  此前,稀疏注意力工作主要集中在推理阶段,而业界预训练阶段多采用稠密注意力机制。训练与推理的不一致,难免会引入误差,从而限制了模型充分发挥稀疏注意力优势的能力。NSA和同时期开源的Kimi的MoBA(混合块注意力机制),都将稀疏注意力做到了预训练阶段,同时在性能上比肩稠密注意力。NSA以“块”为粒度,同时通过引入丰富的算子进行了软硬协同优化,较好地解决了GPU本身不适合稀疏计算的难题。

  (3)DSA:2025年9月DeepSeek发布了V3.2-Exp,它基于V3.1-Terminus构建,引入了新的注意力机制DSA,在保持模型性能的稳定的同时,在训练推理效率方面有了较大的提升,带来了模型较大幅度的降价。对比R1来看,V3.2-Exp的输入缓存命中时价格为R1的20%(0.2元/百万Tokens),输入缓存未命中时价格为R1的50%(2元/百万Tokens),输出价格为R1的19%(3元/百万Tokens),降幅最为明显。考虑到当前大模型之间能力差距在缩小,成本的下降意味着模型具有更好的性价比和可推广性,也将促进应用端实现更多功能的落地deepseek

  (1)实现方式的差异:NSA是参与整个预训练过程,而DSA并不是原生预训练,是基于V3.1-Terminus基座继续预训练而来。由于不需要重新训练模型,而是进行原有模型的升级,DAS可以更低成本地进行稀疏注意力的探索与实验。

  编程框架差异:DSA通过TileLang实现,而NSA则选用的是OpenAI开源的Triton,相对而言,TileLang可以实现更多的深度优化,这更加符合DeepSeek持续追求更高效的软硬件协同的企业风格,同时也更有利于国产芯片生态的深度适配。

  (3)在实现“挑重点”的方式上的差异:DSA通过引入“闪电索引器”,逐词判断快速找出文本中的重要词汇(2048个),并以这些筛选出的词汇进行细粒度稀疏计算;NSA将文本分成“块”,分三层挑重点。不同的稀疏化的思路,意味着针对具体的场景下DSA和NSA可能各有优势。长期来看,DSA的稳定性、安全性及泛化能力还有待进一步验证,有望在开源后得到更多的市场验证。

  如果将神经网络视为y=f(x),x是输入,y是输出。当前的趋势是多模态等需求导致x变长,同时为了在后训练中提升模型的推理能力和满足长思维链的需求,y的长度也在变长。

  考虑到传统在端依靠增大模型参数数量、训练数据的预训练上Scaling范式面临发展瓶颈,OpenAI的o1和DeepSeek-R1 发布后,厂商更多通过后训练方式来提升模型能力。

  在DeepSeek-R1-Zero的训练中,DeepSeek通过增加强化学习的训练迭代步数(后训练),模型输出的长度持续增长,思考的时间持续增加,AIME精度也在持续提升。

  以上因素结合来看,DSA和NSA为代表的稀疏注意力机制给大模型带来的计算效率的提升和模型上下文的拓展,将给后训练释放更大的发展潜能,成为推动模型能力不断突破的重要支撑。

  本报告署名分析师具有中国证券业协会授予的证券分析师执业资格,本人任职符合监管机构相关合规要求。本人基于认真审慎的职业态度、专业严谨的研究方法与分析逻辑,独立、客观的制作本报告。本报告准确的反映了本人的研究观点,本人对报告内容和观点负责,保证报告信息来源合法合规。原文出处:【中原计算机】人工智能专题:DeepSeek的稀疏注意力机制给AI产业释放更大的发展潜能,感谢原作者,侵权必删!

标签: deepseek

“【中原计算机】人工智能专题:DeepSeek的稀疏注意力机制给AI产业释放更大的” 的相关文章

药易购:已完成DeepSeek本地化部署,积极推动内部数智化转型与外部生态赋能

药易购:已完成DeepSeek本地化部署,积极推动内部数智化转型与外部生态赋能

  有投资者在互动平台向药易购提问:“董秘,您好,贵公司有部署国内顶尖AI大模型DeepSeek吗?”   针对上述提问,药易购回应称:“您好!公司已完成DeepSeek...

2月8日DeepSeek预测:奇才vs篮网,萨尔率队客场复仇?

2月8日DeepSeek预测:奇才vs篮网,萨尔率队客场复仇?

  北京时间2月8日凌晨4点,NBA常规赛将迎来一场东部副班长之争——华盛顿奇才(14胜36负)客场挑战布鲁克林篮网(13胜37负)。两支球队分列东部第13和14位,但近期状态迥异,历史交...

数据市场价值共创主题活动在乌镇举办,多项成果发布

数据市场价值共创主题活动在乌镇举办,多项成果发布

  11月8日,2025年世界互联网大会“互联网之光”博览会·数据市场价值共创主题活动和数据产业合作对接活动在乌镇举办。本次活动由数据要素社主办,活动现场多项数据市场价值共创成果发布。...

DeepSeek预测:马德里竞技VS法兰克福!格列兹曼率队主场复仇,法兰克福黑马

DeepSeek预测:马德里竞技VS法兰克福!格列兹曼率队主场复仇,法兰克福黑马

  在25/26赛季欧冠联赛阶段第二轮,西甲劲旅马德里竞技将坐镇利雅得航空大都会球场迎战德甲黑马法兰克福。这场对决堪称新赛制下的经典案例——36队混战、8场定生死,马竞首轮2-3惜败利物浦...

太平洋科技AI排行榜:DeepSeek拿下第一,你常用的排第几?

太平洋科技AI排行榜:DeepSeek拿下第一,你常用的排第几?

  当大模型价格战的硝烟逐渐散去,当“一分钱用一天”的口号不再新鲜,市场的焦点正从模型参数的“军备竞赛”悄然转向应用的实际落地。技术的热闹终将回归价值的本质——   为此...

DeepSeek预测:拜仁慕尼黑vs多特蒙德!凯恩11球碾压吉拉西,南大王主场血

DeepSeek预测:拜仁慕尼黑vs多特蒙德!凯恩11球碾压吉拉西,南大王主场血

  2025赛季德甲第7轮即将上演国家德比!拜仁慕尼黑(25球,联赛第1)与多特蒙德(12球,联赛第4)将在安联球场展开对决。拜仁场均3.9球的恐怖火力(赛事第1)对上多特场均2.7球的稳...