当前位置：首页 > Deepseek最新资讯 > 正文内容

梁文锋署名新论文，DeepSeek V4架构首曝？直击Transformer致命

5个月前 (01-13)Deepseek最新资讯89

　　【新智元导读】深夜，梁文锋署名的DeepSeek新论文又来了。这一次，他们提出全新的Engram模块，解决了Transformer的记忆难题，让模型容量不再靠堆参数！

　　如今，MoE成为大模型主流架构，但本质仍是Transformer，因其缺少原生「知识查找」机制，很多检索能力被迫用大量计算去模拟。

　　33页论文中，团队提出了 MoE 互补的「条件记忆」稀疏轴，并通过一种全新的Engram模块去实现：

　　沿着这个规律，将Engram扩展到27B参数后，并在严格等参数、等FLOPs下优于MoE基线。

　　它把该查的交给 O(1)记忆，把注意力从局部琐碎中解救出来，结果不只是更会背知识，同时推理、代码、数学一起变强。

　　混合专家模型（MoE）就是典型代表，每个token只需激活少量专家，用「条件计算」让参数规模飙升，FLOPs还能控住。

　　但问题在于，Transformer缺少一种「原生的知识查找」能力，所以很多本该像检索一样 O(1)解决的事，被迫用一堆计算去「模拟检索」，效率很不划算。

　　北大和DeepSeek新论文带来一个很有意思的观点：稀疏化不只服务「计算」，也可以服务「记忆」。

　　由此，团队提出了Engram，把语言建模中大量「固定、局部、刻板」的模式，交给一个可扩展的查表模块去承担。

　　为了识别实体「戴安娜，威尔士王妃」（Diana，Princess of Wales），LLM必须消耗多层注意力和FFN来逐步组合特征，这个过程理论上是可以通过一次知识查找操作来完成的。

　　可以将Engram理解为，把经典「哈希N-gram嵌入」现代化，做成插在Transformer中间层的一个「可扩展查表模块」。

　　如图1所示，Engram是一个条件记忆模块，旨在通过从结构上将静态模式存储与动态计算分离开来，从而增强Transformer骨干网络。

　　形式化地说，给定输入序列X=(x_1,...,x_T)和第l层的隐藏状态H^(l)∈R^Txd，该模块分两个功能阶段来处理每个位置t：检索和融合。

　　第一阶段主要负责将局部上下文映射到静态的记忆条目中，这通过分词器压缩（tokenizer compression）和确定性哈希检索嵌入来实现。

　　他们预先计算了一个满射函数P:V→V，利用归一化的文本等价性（比如NFKC、小写化等手段）将原始Token ID坍缩成规范标识符。

　　要想直接参数化所有可能的N-grams组合空间，计算上是行不通的。作者采用了一种基于哈希的方法。

　　检索到的嵌入e_t充当的是上下文无关的先验信息。不过，它们容易受到哈希冲突或多义词带来的噪声干扰。

　　为了保证梯度稳定性，他们在计算标量门α_t∈(0,1)之前，先对Query和Key进行RMSNorm处理：

　　为了实证验Engram是否按预期行为，作者在图7中可视化了Engram-27B在各种样本上的门控标量α_t。

　　在中文demo中，Engram识别并检索独特的习语表达和历史实体，比如「四大发明」和「张仲景」。

　　这些定性结果证实，Engram成功识别并处理了固定的语言依赖关系，有效地将Transformer骨干网络从记忆这些静态关联中解放出来。

　　与依赖运行时隐藏状态进行动态路由的混合专家模型（MoE）不同，Engram的检索索引仅取决于输入的Token序列。

　　在探索的范围内，曲线遵循严格的幂律，这表明Engram提供了一种可预测的扩展调节手段：更大的内存能持续带来收益，而无需额外的计算量。

　　关于扩展效率关键的一点是：虽然OverEncoding的直接平均方法也能受益于更大的内存表，但Engram在相同的内存预算下解锁了更大的扩展潜力。

　　基于Engram架构以及实验得出的分配定律，作者将Engram扩展到了数十亿参数的级别，以此来验证其在现实世界LLM预训练中的有效性。

　　在相同的训练计算预算下，所有三个稀疏变体（MoE-27B，Engram-27B/40B）在所有基准测试中都显著击败了等FLOPs的Dense-4B基线。

　　这些结果支持了他们的假设：引入一个专用的知识查找原语所带来的表示效率提升，要超过将所有稀疏预算都分配给条件计算的效果。

　　可以观察到，Engram-40B与基线之间的训练损失差距在训练后期仍在持续扩大，这表明扩大的内存容量在当前的Token预算内尚未完全饱和。

　　通过将局部依赖建模的任务卸载给静态查找，Engram架构保留了宝贵的注意力容量来管理全局上下文。

　　虽然注意力机制和位置编码提供了处理上下文的结构基础，但结果表明，长上下文性能并非仅由架构先验决定。

　　因此，严格的架构比较必须通过对齐基座模型的Loss来控制这一干扰变量，而不仅仅是简单地对齐训练步数。

　　在上述原则的指导下，作者将Engram与MoE 基线进行了对比。当控制了基座能力后，Engram模块的效率增益就变得非常明显：

　　如上的U型scaling law证明了，稀疏预算全部给MoE，不是全局最优，留出一部分给Engram整体更强。

　　它让LLM知识能力暴涨同时，也间接提升了推理、数学、代码的性能，因为Transfomer主干的深度和注意力计算效用更「值钱」了。

　　Xin Cheng目前在北京大学读博，主攻自然语言处理方向，研究重点是大语言模型和检索增强生成。

　　作为一名学术新秀，他在圈内已经做出了不少成绩，尤其是在NeurIPS、ACL和EMNLP这些顶会上，发了多篇一作论文deepseek。原文出处：梁文锋署名新论文，DeepSeek V4架构首曝？直击Transformer致命缺陷，感谢原作者，侵权必删！

标签: deepseek

返回列表

上一篇：DeepSeek有望春节发布V4版本，软件ETF(159852)聚焦AI软件发展

下一篇：DeepSeek-V4 即将发布，算力效率与性能双升级！低费率云计算ETF华夏、

“梁文锋署名新论文，DeepSeek V4架构首曝？直击Transformer致命” 的相关文章

天融信：公司持续关注DeepSeek大模型技术迭代与版本更新

　　证券日报网讯 3月4日，天融信在互动平台回答投资者提问时表示，公司持续关注DeepSeek大模型技术迭代与版本更新，将结合自身业务布局与产品规划deepseek，及时开展新版本模型的适...

3月11日DeepSeek预测：凯尔特人vs马刺，绿军双星能否攻克文班亚马领衔的

　　北京时间3月11日，NBA常规赛将迎来焦点战——东部第二的凯尔特人（43胜21负）客场挑战西部第二的马刺（47胜17负）。两支胜率均超过67%的球队相遇，既是联盟顶级攻防体系的碰撞，更...

1月16日DeepSeek预测：爵士vs独行侠，马尔卡宁缺阵恐难阻独行侠主场复仇

　　西部两支挣扎中的球队将在达拉斯展开对决，爵士（14胜26负）与独行侠（15胜26负）本赛季第三次交锋。尽管爵士在历史交锋中以3胜2负稍占优势，但核心球员马尔卡宁的缺阵可能改变战局。...

新网银行积极探索新媒体传播的创新路径

　　在成都这座内容活跃、创新氛围浓厚的城市里，优质的新媒体账号从不缺席。但要在百花齐放的赛道中脱颖而出并不容易。近日，“2025成都市新媒体交流分享活动”上，新网银行再度入选“网络正能量账...

聚焦高质量发展

　　智绘绿洲亮相WAIC大会诠释智算产业新内涵...

DeepSeek预测：曼城VS曼联！哈兰德天神下凡orB费力挽狂澜？3-1蓝月碾

　　英超第4轮即将迎来重磅对决——曼城坐镇伊蒂哈德迎战曼联！目前曼城3战1胜2负积3分排名第13，曼联1胜1平1负积4分位列第9。两队近期状态堪称冰火两重天：蓝月军团近3场狂丢4球，而红魔...