当前位置：首页 > Deepseek最新资讯 > 正文内容

DeepSeek开源Engram论文，梁文锋领衔提出条件记忆新机制

5个月前 (01-13)Deepseek最新资讯87

　　【#DeepSeek又开源了# 梁文锋署名新论文发布，实习生挑大梁】智东西1月13日报道，昨晚，DeepSeek又开源了，还发布一篇新论文。这次，他们提出了一种全新的“条件记忆”机制——Engram，旨在让MoE模型在保持巨量参数的同时，更高效地处理语言信息。

　　DeepSeek创始人兼CEO梁文锋、北大王选计算机研究所的赵东岩和张辉帅教授都在论文中署名。Engram架构的核心优势在于以更低成本实现更优性能。训练计算量较MoE减少18%的情况下，在32768个token的长上下文任务中，Engram在RULER基准测试中反超同参数量MoE模型。

　　并且，其浅层部署的记忆模块接管局部依赖与静态知识存储，为注意力机制腾出容量以专注全局推理，1000亿参数记忆表卸载后使H800推理吞吐量降幅不足3%。

　　DeepSeek还观察到，增加记忆槽位数量能持续、稳定地降低验证损失，这意味着Engram提供了一个可预测的Scaling新手段：增大记忆容量持续带来收益，而无需增加计算量。

　　那这种效果究竟是如何实现的呢？如今的MoE模型虽然在计算层面做到了稀疏化，但是它处理信息的方式仍然很费劲：有些老生常谈的事实性内容，比如常见的名字、公式或固定表达，模型却要重复计算，非常耗时间。

　　DeepSeek的做法是，把这些“固定知识”提前整理成一个可以快速查询的表格，这样就能把更多精力放在真正需要深度思考的任务上，比如复杂推理或者理解长段文本deepseek。

　　值得一提的是，论文的第一作者Xin Cheng（程信）目前在北京大学智能学院攻读博士学位，主要研究大模型的高效参数化方法和机制。他同时也在DeepSeek工作，R1、V3的研究都参与了，很有可能是实习生。

　　在论文摘要中，DeepSeek提出，条件记忆（conditional memory）将成为下一代稀疏模型中不可或缺的建模原语。这或许意味着DeepSeek-V4有望整合条件记忆机制，实现知识高效检索与推理能力的飞跃。原文出处：DeepSeek开源Engram论文，梁文锋领衔提出条件记忆新机制，感谢原作者，侵权必删！

标签: deepseek