当前位置:首页 > Deepseek最新资讯 > 正文内容

梁文锋署名新论文,DeepSeek V4架构首曝?直击Transformer致命

3个月前 (01-13)Deepseek最新资讯83

  【新智元导读】深夜,梁文锋署名的DeepSeek新论文又来了。这一次,他们提出全新的Engram模块,解决了Transformer的记忆难题,让模型容量不再靠堆参数!

  如今,MoE成为大模型主流架构,但本质仍是Transformer,因其缺少原生「知识查找」机制,很多检索能力被迫用大量计算去模拟。

  33页论文中,团队提出了 MoE 互补的「条件记忆」稀疏轴,并通过一种全新的Engram模块去实现:

  沿着这个规律,将Engram扩展到27B参数后,并在严格等参数、等FLOPs下优于MoE基线。

  它把该查的交给 O(1)记忆,把注意力从局部琐碎中解救出来,结果不只是更会背知识,同时推理、代码、数学一起变强。

  混合专家模型(MoE)就是典型代表,每个token只需激活少量专家,用「条件计算」让参数规模飙升,FLOPs还能控住。

  但问题在于,Transformer缺少一种「原生的知识查找」能力,所以很多本该像检索一样 O(1)解决的事,被迫用一堆计算去「模拟检索」,效率很不划算。

  北大和DeepSeek新论文带来一个很有意思的观点:稀疏化不只服务「计算」,也可以服务「记忆」。

  由此,团队提出了Engram,把语言建模中大量「固定、局部、刻板」的模式,交给一个可扩展的查表模块去承担。

  为了识别实体「戴安娜,威尔士王妃」(Diana,Princess of Wales),LLM必须消耗多层注意力和FFN来逐步组合特征,这个过程理论上是可以通过一次知识查找操作来完成的。

  可以将Engram理解为,把经典「哈希N-gram嵌入」现代化,做成插在Transformer中间层的一个「可扩展查表模块」。

  如图1所示,Engram是一个条件记忆模块,旨在通过从结构上将静态模式存储与动态计算分离开来,从而增强Transformer骨干网络。

  形式化地说,给定输入序列X=(x_1,...,x_T)和第l层的隐藏状态H^(l)∈R^Txd,该模块分两个功能阶段来处理每个位置t:检索和融合。

  第一阶段主要负责将局部上下文映射到静态的记忆条目中,这通过分词器压缩(tokenizer compression)和确定性哈希检索嵌入来实现。

  他们预先计算了一个满射函数P:V→V,利用归一化的文本等价性(比如NFKC、小写化等手段)将原始Token ID坍缩成规范标识符。

  要想直接参数化所有可能的N-grams组合空间,计算上是行不通的。作者采用了一种基于哈希的方法。

  检索到的嵌入e_t充当的是上下文无关的先验信息。不过,它们容易受到哈希冲突或多义词带来的噪声干扰。

  为了保证梯度稳定性,他们在计算标量门α_t∈(0,1)之前,先对Query和Key进行RMSNorm处理:

  为了实证验Engram是否按预期行为,作者在图7中可视化了Engram-27B在各种样本上的门控标量α_t。

  在中文demo中,Engram识别并检索独特的习语表达和历史实体,比如「四大发明」和「张仲景」。

  这些定性结果证实,Engram成功识别并处理了固定的语言依赖关系,有效地将Transformer骨干网络从记忆这些静态关联中解放出来。

  与依赖运行时隐藏状态进行动态路由的混合专家模型(MoE)不同,Engram的检索索引仅取决于输入的Token序列。

  在探索的范围内,曲线遵循严格的幂律,这表明Engram提供了一种可预测的扩展调节手段:更大的内存能持续带来收益,而无需额外的计算量。

  关于扩展效率关键的一点是:虽然OverEncoding的直接平均方法也能受益于更大的内存表,但Engram在相同的内存预算下解锁了更大的扩展潜力。

  基于Engram架构以及实验得出的分配定律,作者将Engram扩展到了数十亿参数的级别,以此来验证其在现实世界LLM预训练中的有效性。

  在相同的训练计算预算下,所有三个稀疏变体(MoE-27B,Engram-27B/40B)在所有基准测试中都显著击败了等FLOPs的Dense-4B基线。

  这些结果支持了他们的假设:引入一个专用的知识查找原语所带来的表示效率提升,要超过将所有稀疏预算都分配给条件计算的效果。

  可以观察到,Engram-40B与基线之间的训练损失差距在训练后期仍在持续扩大,这表明扩大的内存容量在当前的Token预算内尚未完全饱和。

  通过将局部依赖建模的任务卸载给静态查找,Engram架构保留了宝贵的注意力容量来管理全局上下文。

  虽然注意力机制和位置编码提供了处理上下文的结构基础,但结果表明,长上下文性能并非仅由架构先验决定。

  因此,严格的架构比较必须通过对齐基座模型的Loss来控制这一干扰变量,而不仅仅是简单地对齐训练步数。

  在上述原则的指导下,作者将Engram与MoE 基线进行了对比。当控制了基座能力后,Engram模块的效率增益就变得非常明显:

  如上的U型scaling law证明了,稀疏预算全部给MoE,不是全局最优,留出一部分给Engram整体更强。

  它让LLM知识能力暴涨同时,也间接提升了推理、数学、代码的性能,因为Transfomer主干的深度和注意力计算效用更「值钱」了。

  Xin Cheng目前在北京大学读博,主攻自然语言处理方向,研究重点是大语言模型和检索增强生成。

  作为一名学术新秀,他在圈内已经做出了不少成绩,尤其是在NeurIPS、ACL和EMNLP这些顶会上,发了多篇一作论文deepseek。原文出处:梁文锋署名新论文,DeepSeek V4架构首曝?直击Transformer致命缺陷,感谢原作者,侵权必删!

标签: deepseek

“梁文锋署名新论文,DeepSeek V4架构首曝?直击Transformer致命” 的相关文章

AI APP全球100强:中国应用加速“出海”,DeepSeek冲至全球第4

AI APP全球100强:中国应用加速“出海”,DeepSeek冲至全球第4

  全球100大AI消费应用榜单发布,ChatGPT以9亿周活稳居第一但竞争在加剧。这也是一份中国AI应用的“出海战报”,DeepSeek升至全球第4,Kimi、千问、可灵AI等产品进入前...

deepseek显示服务器繁忙有没有什么解决方法?

deepseek显示服务器繁忙有没有什么解决方法?

最近下载的DeepSeek用户,都遇到了服务器繁忙的现象,deepseek显示服务器繁忙有没有什么解决方法?还有下面三种方式可以使用: 1.使用硅基流动API Key+ chatbox ai 在硅...

12月24日DeepSeek预测:公牛vs老鹰,布泽利斯对决约翰逊,公牛客场险胜

12月24日DeepSeek预测:公牛vs老鹰,布泽利斯对决约翰逊,公牛客场险胜

  圣诞前夕的亚特兰大即将迎来一场东部卡位战,目前排名东部第10的公牛(13胜15负)将挑战第9的老鹰(15胜15负)。两队仅差1.5个胜场,这场直接对话或将重塑季后赛附加赛格局。...

11月6日DeepSeek预测:勇士vs国王,库里缺阵恐难阻勇士连胜势头

11月6日DeepSeek预测:勇士vs国王,库里缺阵恐难阻勇士连胜势头

  北京时间11月6日上午11点,NBA常规赛将迎来一场西部对决,金州勇士客场挑战萨克拉门托国王。目前勇士以5胜3负排名西部第6,而国王仅2胜5负位列西部第13。   勇...

北电数智WAIC首秀,展示星火·大平台落百业丰硕成果

北电数智WAIC首秀,展示星火·大平台落百业丰硕成果

  召开会议,把握志愿、弹性原则,推动临盆关系和临盆力、上层修建和经济基本、国家管理和社会成长更好相适应,要周全贯彻习新期间中国特色思惟,全会提出,加倍重视革新实效,以匆匆进社会公道允义、...

拐点信号显现?国产AI再迎DeepSeek时刻!技术突破+业绩验证,科创人工智能

拐点信号显现?国产AI再迎DeepSeek时刻!技术突破+业绩验证,科创人工智能

  随着AI爆款迭现,AI概念股持续活跃,今日(11月25日)重点布局国产AI产业链的科创人工智能ETF(589520)场内价格盘中上探3.61%,收涨2.17%,全天成交额3594万元,...